2014-11-20 3 views
0

마호와 아이템 - 아이템 유사성 매칭 추천 엔진을 구축하려고합니다. 데이터 세트는마호 마트 용 데이터 모델 생성

name : category : cost : ingredients 

x : xx1 : 15 : xxx1, xxx2, xxx3 

y : yy1 : 14 : yyy1, yyy2, yyy3 

z : xx1 : 12 : xxx1, xxy1 

그래서에서 순서 코끼리 조련사가 훈련이 데이터 세트를 사용하기에이 변환 할 수있는 권리 방법은 무엇입니까 (속성이없는 숫자 형식의 텍스트에있는)의 형식은 다음과 같이이다 mahout에서 허용하는 숫자 (CSV 부울 데이터 세트로) 형식.

답변

0

Mahout v1을 사용하면 인코딩을 텍스트 구분/CSV 형식 파일로 지정할 수 있습니다.

name<tab>category-ID<space>cost-range-ID<space>ingredient-ID1<space>ingredient-ID2<space>etc... 

모든 ID는 문자열이므로 실제 비용을 숫자 값으로 사용하는 대신 ID를 비용 범위에 제공 할 수 있습니다. 또한 cost-range-ID가 원료 ID와 카테고리 ID와 구별되도록 동일한 ID를 포함 할 수있는 열이 없는지 확인하십시오.

이 데이터에 실행 mahout spark-rowsimilarity 및 양식의 파일을 다시 얻을 것이다는 :

name<tab>name1:strength<space>name2:strength<space>etc... 

이 각 항목에 대한 유사한 항목의 목록입니다. 목록이 정렬되고 강도는 항목의 유사성에 대한 LLR (로그 우도 비율) 점수입니다.

여기에 문서 : http://mahout.apache.org/users/recommender/intro-cooccurrence-spark.html