몇 백만 행의 거래 시장 바구니 데이터에 대한 선호도 분석을 신속하게 수행하려고합니다.Hadoop을 이용한 R 시장 마켓 분석
지금까지했던 어떤 :
- 이
- 이 RevoScaleR 시작하기 구름에 스파크 & 하둡의 상단에 R 서버 (푸른 HDInsight) HDFS에
- 로드 데이터를 생성
그러나 나는 마지막 단계에서 멈추었습니다. 필자가 이해하는 한, RevoScaleR에서 제공하지 않는 기능을 사용하여 데이터를 처리 할 수 없습니다. ,
bigDataDirRoot <- "/basket"
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")
것은 그래서 내 infputFile는 푸른 물방울에서 CSV이를 실행 한 후에/바구니/gunluk
gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)
이미 생성됩니다
여기 HDFS의 데이터를 액세스하기위한 코드입니다 헤드 (gunluk_data)를 사용하여 데이터를 볼 수 있습니다.
어떻게 관리 할 수 있습니까 012luke_dataarules 패키지 기능을 사용하십시오. 이것이 가능한가?
그렇지 않은 경우 정규 R 패키지 (즉, arules)를 사용하여 HDFS에있는 CSV 파일을 처리 할 수 있습니까?