2016-12-15 10 views
0

몇 백만 행의 거래 시장 바구니 데이터에 대한 선호도 분석을 신속하게 수행하려고합니다.Hadoop을 이용한 R 시장 마켓 분석

지금까지했던 어떤 :

  • 이 RevoScaleR
  • 시작하기 구름에 스파크 & 하둡의 상단에 R 서버 (푸른 HDInsight) HDFS에
  • 로드 데이터를 생성

그러나 나는 마지막 단계에서 멈추었습니다. 필자가 이해하는 한, RevoScaleR에서 제공하지 않는 기능을 사용하여 데이터를 처리 할 수 ​​없습니다. ,

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE) 
rxSetComputeContext(mySparkCluster) 
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort) 
inputFile <-file.path(bigDataDirRoot,"gunluk") 

것은 그래서 내 infputFile는 푸른 물방울에서 CSV이를 실행 한 후에/바구니/gunluk

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS) 

이미 생성됩니다

여기 HDFS의 데이터를 액세스하기위한 코드입니다 헤드 (gunluk_data)를 사용하여 데이터를 볼 수 있습니다.

어떻게 관리 할 수 ​​있습니까 012luke_dataarules 패키지 기능을 사용하십시오. 이것이 가능한가?

그렇지 않은 경우 정규 R 패키지 (즉, arules)를 사용하여 HDFS에있는 CSV 파일을 처리 할 수 ​​있습니까?

답변

0

arules에서는 read.transactions을 사용하여 파일에서 데이터를 읽고 write.PMML을 사용하여 규칙/항목 세트를 작성할 수 있습니다.