저는 mahout 및 hadoop을 공동 필터링에 사용하는 방법을 이해하려고하는 초보자입니다. 단일 노드 카산드라 설정이 있습니다. cassandra에서 데이터를 가져 오려고합니다mahout 및 hadoop 사용
먼저 hadoop에 대한 명확한 설치 단계를 찾은 다음 어디에서 cassandra를 사용할 수 있습니까?
저는 mahout 및 hadoop을 공동 필터링에 사용하는 방법을 이해하려고하는 초보자입니다. 단일 노드 카산드라 설정이 있습니다. cassandra에서 데이터를 가져 오려고합니다mahout 및 hadoop 사용
먼저 hadoop에 대한 명확한 설치 단계를 찾은 다음 어디에서 cassandra를 사용할 수 있습니까?
이
당신은 모든 하둡을 필요로하지 않을 수 있습니다 (I가. 이것은 당신이 내 대답을 복사 [email protected]?에 대한 질문 같은 질문이라고 생각), 그리고 당신이하지 않으면, 나는 당신이 단순함을 위해 그것을 사용하지 말 것을 제안합니다. 특정 지점을 지나서 확장하는 것은 "필수 악"입니다.
카산드라에 데이터를 저장할 수 있지만 메모리로 읽을 수 있어야합니다. 파일로 덤프 할 수 있으면 FileDataModel을 사용할 수 있습니다. 또는 FileDataModel에서 코드를 에뮬레이션하여 Cassandra를 기반으로 코드를 만들 수 있습니다.
는 그런 다음 두 가지 요구에 쉽게 대답됩니다
이도 추천 문제가되지 않습니다. UserSimilarity의 구현 을 선택하고 사용자를 다른 모든 사용자와 비교하고 은 가장 높은 숫자를 유사도로 선택합니다. ( CachingUserSimilarity로 포장하는 것은 많은 도움이 될 것입니다.)
이 그냥 추천인 문제입니다. GenericUserBasedRecommender를 으로 UserSimilarity 및 DataModel 과 함께 사용하면 작업이 완료된 것입니다.
당연히 이보다 훨씬 더 복잡해 질 수 있지만 이것은 좋은 출발점입니다.
나중에 Hadoop을 사용한다면 예에 따라 Hadoop을 설정해야합니다. Mahout "설정"이 없습니다. 권장 사항의 경우 Hadoop 클러스터에서 필요한 작업을 호출하는 RecommenderJob 클래스 중 하나를 살펴볼 수 있습니다. "hadoop"명령으로 실행합니다. 다시 하둡을 이해해야합니다.
책 Mahout in Action은 Mahout Hadoop 작업의 대부분을 일부 자세히 기록합니다.
책 Mahout in Action은 참으로 절망적 인 문서 부족에서 나를 구해 냈습니다.
저는 다음과 같습니다 : https://issues.apache.org/jira/browse/MAHOUT-180 ... 오직 'hadoop-jar'구문만으로 오류가 발생했습니다. 이 책에는 대신 'jar'가 있으며,이 문제로 인해 테스트 작업이 행복하게 진행되고 있습니다.
는 여기에 내가했던 일이야 :
내 노트북에 새로 빌드 된 Mahout에서 hadoop 클러스터의 제어 상자로 업로드 된 mahout-examples-0.5-SNAPSHOT-job.jar. 거기에 다른 마호트 물건이 없어. \
하둡 항아리 (내가 DFS -ls/사용자/danbri으로 확인하는 하둡 구성되어 있다고 가정) ./mahout-examples-0.5-SNAPSHOT-job.jar :
이 달렸다 org.apache.mahout.math.hadoop.decomposer.DistributedLanczosSolver \ --input svdoutput.mht --output outpath --numRows 0 --numCols 나는이 권리를 가지고 있는지 지금 4 --rank 50
... 꽤 다른 문제이지만 뭔가를하는 것 같습니다!
다음 자습서를 따라 배울 수 있습니다. 이해하기 쉽고 Hadoop의 기본에 대해 명확하게 명시했습니다.