Hadoop을 이용한 R 시장 마켓 분석

몇 백만 행의 거래 시장 바구니 데이터에 대한 선호도 분석을 신속하게 수행하려고합니다.Hadoop을 이용한 R 시장 마켓 분석

지금까지했던 어떤 :

이
이 RevoScaleR
로드 데이터를 생성

그러나 나는 마지막 단계에서 멈추었습니다. 필자가 이해하는 한, RevoScaleR에서 제공하지 않는 기능을 사용하여 데이터를 처리 할 수 없습니다. ,

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE) 
rxSetComputeContext(mySparkCluster) 
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort) 
inputFile <-file.path(bigDataDirRoot,"gunluk")

것은 그래서 내 infputFile는 푸른 물방울에서 CSV이를 실행 한 후에/바구니/gunluk

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)

이미 생성됩니다

여기 HDFS의 데이터를 액세스하기위한 코드입니다 헤드 (gunluk_data)를 사용하여 데이터를 볼 수 있습니다.

어떻게 관리 할 수 있습니까 012luke_dataarules 패키지 기능을 사용하십시오. 이것이 가능한가?

그렇지 않은 경우 정규 R 패키지 (즉, arules)를 사용하여 HDFS에있는 CSV 파일을 처리 할 수 있습니까?

출처

2016-12-15 tyumru

arules에서는 read.transactions을 사용하여 파일에서 데이터를 읽고 write.PMML을 사용하여 규칙/항목 세트를 작성할 수 있습니다.

출처

2016-12-16 20:50:11

Hadoop을 이용한 R 시장 마켓 분석

답변

관련 문제