2

관련 텍스트 문서를 사용자에게 제안하기 위해 주제 기반 권장 시스템을 제안하려고합니다.주제 기반 추천 시스템의 사용자 프로파일 작성

나는 위키피디아 코퍼스에서 gensim을 사용하여 잠재 의미 론적 색인 모델을 훈련 시켰습니다. 이를 통해 문서를 LSI 주제 배포로 쉽게 변형 할 수 있습니다. 내 생각은 이제 사용자를 같은 방식으로 표현하는 것입니다. 그러나 물론 사용자에게는 기사를 본 기록 및 기사 등급이 있습니다.

그럼 내 질문은 : 사용자를 어떻게 대변합니까?

내가 가진 아이디어는 다음과 같습니다. 사용자를 볼 수있는 모든 문서의 집합으로 나타냅니다. 그러나 등급을 고려하는 방법은 무엇입니까?

아이디어가 있으십니까?

감사

답변

1

나는 그 LSA와 함께 일하고 생각하지 않습니다.

하지만 당신은 각 사용자의 좌표가 표시된 문서 인 일종의 k-NN 분류를 수행 할 수 있습니다. 각 객체 (= 사용자)는 방사선을 전송합니다 (강도는 거리의 제곱에 반비례 함). 강도는 단일 문서의 등급에서 계산됩니다.

그런 다음이 과격한 공간에 개체 (사용자)를 배치하고 다른 사용자가 가장 '빛'을주는 것을 볼 수 있습니다.

하지만 아파치 루씬이 당신을 위해 모든 것을 할 수 없습니까?

0

"모든 문서를 집계 한 것으로 사용자를 나타냅니다.": 선형 공간에 있으면 실제로 작동 할 수 있습니다. 하나의 큰 벡터에 모든 문서 벡터를 쉽게 추가 할 수 있습니다.

등급을 추가하려면 단순히 합계에 계수를 넣을 수 있습니다.

벡터 D2, 등급 3, D3 등의 모든 문서를 그룹화한다고하면 사용자 벡터를 U = c2 * D2 + c3 * D3 + ... 으로 간단하게 정의 할 수 있습니다. c2, c3에 대한 양식이지만, 가장 쉬운 접근법은 단순히 등급을 곱하여 정규화 이유로 최대 등급으로 나누는 것입니다.

최대 등급이 5 인 경우 c2 = 2/5, c3 = 3/5 ...

을 정의 할 수 있습니다.