1

항목 기반 협업 필터를 사용하여 레스토랑 권장 사항을 만드는 권장 엔진을 만들고 있습니다. 각 레스토랑마다 등급이 1-5 인 리뷰가 있습니다.
모든 권장 알고리즘은 데이터 희소성 문제로 인해 어려움을 겪고 있으므로 정확한 상관 관계를 계산하는 솔루션을 찾고있었습니다.항목 기반 공동 작업 필터의 최소 데이터 양

나는 레스토랑 간의 조정 된 코사인 유사성을 사용하고 있습니다.

레스토랑 간의 유사성을 계산하려면 두 레스토랑을 모두 평가 한 사용자가 필요합니다. 그러나 두 식당에 정확한 상관 관계를 부여하는 것으로 평가 한 최소 사용자는 무엇입니까?

테스트 결과 두 레스토랑을 모두 평가 한 사용자 1 명이 불량 유사점을 나타냄을 발견했습니다 (분명히). 종종 -1 또는 1입니다. 그래서 나는 두 레스토랑을 가지고있는 사용자 2 명에게 그것을 늘려서 더 나은 유사성을 갖게했습니다. 나는이 유사성이 충분한지를 결정하는 것이 어렵다는 것을 알게된다. 이 유사성의 정확성을 테스트하거나 최소값이 무엇인지에 대한 지침이 있습니까?

답변

0

간단한 대답은 매개 변수 스윕입니다. "두 레스토랑을 모두 평가 한 최소 사용자"의 여러 값을 시도하고 결과를 측정하십시오. 사용자가 늘어 나면 항목 (레스토랑) 간의 유사성을 더 잘 이해하게됩니다. 그러나 당신의 유사성 정보는 희박합니다. 즉, 인기있는 항목에 집중하고 긴 꼬리의 항목을 추천 할 수있는 능력이 떨어집니다. 즉, 항상 상충 관계가 있음을 의미하며 상충 관계를 만들 수있는 모든 사항을 측정해야합니다. 예를 들어 예측 가능한 정확성 (예 : RMSE) 및 권장 할 수있는 항목 수를 측정합니다.

항목 공간이 너무 희박 해지면 사용자 등급 이외의 항목 항목 유사성을 수행하는 다른 방법을 찾을 수 있습니다. 예를 들어 콘텐츠 기반 필터링 방법을 사용하여 각 레스토랑의 요리에 대한 정보를 포함시킨 다음 각 사용자의 요리 설정을 학습하는 중간 단계를 만들 수 있습니다. 그러면 항목 항목 유사성 점수가없는 경우에도 권장 사항을 수행 할 수 있습니다.