Apache Mahout에서 주어진 데이터 세트의 두 사용자간에 유사성의 수치 값을 얻는 방법을 아는 사람이 있습니까?Apache Mahout에서 두 사용자 간의 피어슨 상관 관계 유사성 표시
0
A
답변
0
데이터에는 어떤 것이 있습니까? 구매 나 조회수 또는 평점과 같은 상호 작용 데이터입니까?
그렇다면 아이템 유사성 또는 스파크 - 아이템 유사성이 작동하지만 피드 대신 항목 및 사용자 ID를 교환하십시오. 데이터를 사용자별로 한 행으로 구성된 희소 행렬로 인코딩하는 경우 rowsimilarity 또는 spark-rowsimilarity를 사용할 수도 있습니다.
hadoop 작업의 경우 ID는 Mahout ID, 항목 및 사용자에 대한 0이 아닌 행 및 열 번호 여야합니다. Spark 작업의 경우 원하는 ID를 사용할 수 있습니다.이 ID는 텍스트로 읽히므로 고유 한 문자열이어야합니다.
피어슨은 hadoop 작업에서만 지원됩니다. 스파크 작업은 로그 가능성 (log-likelihood) 비율 만 사용합니다. 협업 필터링 응용 프로그램에서 LLR은 다른 "유사성"메트릭보다 거의 항상 우수합니다.