항목 기반 협업 필터를 사용하여 레스토랑 권장 사항을 만드는 권장 엔진을 만들고 있습니다. 각 레스토랑마다 등급이 1-5 인 리뷰가 있습니다.
모든 권장 알고리즘은 데이터 희소성 문제로 인해 어려움을 겪고 있으므로 정확한 상관 관계를 계산하는 솔루션을 찾고있었습니다.항목 기반 공동 작업 필터의 최소 데이터 양
나는 레스토랑 간의 조정 된 코사인 유사성을 사용하고 있습니다.
레스토랑 간의 유사성을 계산하려면 두 레스토랑을 모두 평가 한 사용자가 필요합니다. 그러나 두 식당에 정확한 상관 관계를 부여하는 것으로 평가 한 최소 사용자는 무엇입니까?
테스트 결과 두 레스토랑을 모두 평가 한 사용자 1 명이 불량 유사점을 나타냄을 발견했습니다 (분명히). 종종 -1 또는 1입니다. 그래서 나는 두 레스토랑을 가지고있는 사용자 2 명에게 그것을 늘려서 더 나은 유사성을 갖게했습니다. 나는이 유사성이 충분한지를 결정하는 것이 어렵다는 것을 알게된다. 이 유사성의 정확성을 테스트하거나 최소값이 무엇인지에 대한 지침이 있습니까?