2014-07-07 6 views
0

나는 mahout을 처음 사용하며 주어진의 parallelALS 작업을 사용하여 암시 적 피드백 권장 사항을 작성했습니다. 내 데이터 세트의 각 행은 user_id, product_id, preference_score (제품에 대한 사용자의 방문수)로 구성됩니다. 사용자 ID와 제품 ID는 긴 유형입니다. 단일 또는 이중 방문을 필터링 한 후이 종류의 백만 데이터 포인트가 있습니다.암시 적 피드백 권장 사항 - 잘못된 결과

필자는 기본적으로 "factorize-movielens-1M"예제와 같이 "parallelALS"및 "recommendedfactorized"두 작업을 실행하는 bash 스크립트를 작성했습니다. 스크립트를 실행 한 결과, 권장 사항에 버그가있는 것 같습니다. 결과 (여러 블로그 게시물에서 설명)의 각 행의 형식은 것 같다 : -
USER_ID :

그러나 모든 행의 모든 ​​products_ids 내가 확실하지 오전 0입니다 [PRODUCT_ID, ... 점수] 무엇을 여기 잘못 가고 있어요. 이 문제는 데이터 세트 또는 튜닝 매개 변수 (알파, 람다 등) 또는 다른 문제의 문제입니까?

+0

데이터 예를 게시하십시오. 사용자 및 항목의 ID는 Mahout ID 여야하며 이는 연속 정수를 의미합니다. 사용자 ID와 항목 ID를 mahout ID (또는 두 개의 HashBiMaps가 작동하거나 데이터베이스)와 매핑하도록 사전을 유지해야합니다. 이는 새로운 사용자가 종종 놓친 것입니다. – pferrel

답변

0

사용자 및 항목의 ID는 Mahout ID 여야합니다. 즉, 연속 정수를 의미합니다. 사용자 ID와 항목 ID를 mahout ID (또는 두 개의 HashBiMaps가 작동하거나 데이터베이스)와 매핑하도록 사전을 유지해야합니다. 이는 새로운 사용자가 종종 놓친 것입니다.

입력 데이터의 예를 게시하십시오.