2012-03-12 3 views
1

Lucene에서 색인을 생성하고 사용자의 태그 및 마호 (mahout)로 분류 된 기사 데이터베이스가 있습니다. 기사의 태그 점수가 일정합니다 (사용자는 태그에 동의하거나 동의하지 않을 수 있으며, mahout에 의해 발견 된 태그는 사용자의 것과 동일하게 취급됩니다).Mahout으로 전체 텍스트 맞춤 검색

프로필 및 상호 작용 기록에서 사용자의 관심사 (특정 태그에 관심이있을 수 있음)를 찾고 싶습니다.

어떻게 사용자의 관심을 저장할 수 있습니까?
사용자의 관심사를 사용하여 검색 결과를 정렬하거나 필터링하는 방법은 무엇입니까?

내 접근 방법이 가능합니까? 실행할 수 있는? 확장 성?
어떤 종류의 기술과 알고리즘을 사용할 수 있습니까? 제발 제안!

답변

2

이것은 검색 문제와 유사하지만 권장 문제는 아닙니다. 주로 태그를 기준으로 검색 결과를 정렬 및 필터링합니다. Lucene은 일반적으로 Mahout이 아닌 배포 도구라고 생각합니다. (태그를 배우기 위해 Mahout 분류자를 사용하는 것이 맞습니다.)

정말로 이것을 추천 문제로 생각하고 싶다면 항목이 태그라고 말할 수 있습니다. X, Y, Z 태그가있는 페이지를 보는 것처럼 태그와 상호 작용할 때마다 "아이템"X, Y 및 Z에 좀 더 관심이 있음을 나타냅니다. 그러면 여기에있는 추천 문제는 다음과 같은 새로운 태그를 제안하는 것입니다. 관심.

태그와의 상호 작용 수를 숫자 "평점"으로 사용해 볼 수도 있습니다.하지만 추천 문맥에서 큰 결과를 얻지는 못합니다. 카운트 로그를 사용하는 것이 좋지만 여전히 잘못 생각합니다. 상호 작용 수를 무시하고 사용자와 태그가 상호 작용했는지 여부와 "부울 기본 설정"을 사용할 수 있습니다.

이 입력과 가장 잘 맞는 알고리즘 모델은 ParallelALSFactorizationJob에서 볼 수있는 교번 최소 자 모델입니다. 그게 당신에게 유용 할 지 모르겠지만, 시간과 성향이 있다면 조사 할 알고리즘입니다. 그것의 입력은 등급이 아닌 "상호 작용 강도"와 비슷합니다. 그런 식으로 취급합니다. 그리고 그것이 여러분이 여기있는 것입니다.

+0

답변 해 주셔서 감사합니다. 관심있는 새 태그를 제안 할 때 귀하의 요지가 있습니다. 그러나 검색 결과를 정렬하고 필터링하기위한 의미있는 정보를 출력하기 위해 입력으로 알고리즘 및 기사의 분류를 허용하는 알고리즘이 있습니까? –

+0

기사와 함께 어떤 태그가 있는지, 어떤 태그가 사용자와 함께 있는지 알면 간단한 검색 문제입니다. 지정된 사용자와 가장 겹치는 항목을 반환합니다. 아마도 로그 가능성 유사도 메트릭을 사용할 수 있습니다. Mahout에 있습니다. –

1

많은 경우 사용자가 관심있는 태그를 명시 적으로 말하게하는 것이 더 쉽습니다. 예를 들어 스택 오버플로가 그 예입니다. 태그가 관심있는 태그 일 경우 어느 정도 점수를 올릴 수 있습니다.

더 암시적인 것을하려는 경우 Mahout은 추천시 FAQ입니다.