2013-06-17 3 views
0

나는 Solr의면 특징을 사용하여 내 문서의 가장 빈번한 색인을 검색하고 있으며 유사한 용어의 빈도를 (예 : levenshtein 거리의 도움으로) "병합"할 수 있는지 궁금합니다. Solr - 패싯에서 비슷한 용어를 병합 하시겠습니까?

예를 들어 생각해 "통신 기술"200 번 나오는 100 번 나오는 "의사 소통 능력", SOLR는 "300 회 통신 기술"를 반환 할 가져올 수 있다면 무엇입니까?

도움 주셔서 감사합니다.

답변

0

Solr은 삽입 한면에 패싯을 생성합니다. 따라서 Communication skillsCommunicating skills을 삽입하면 결합 여부를 알 수 없습니다.

그러나, 당신이 할 수있는 것은 당신이 Communication skills 파일에 Communicating skills의 동의어임을 정의해야하고 SOLR가 Communication skillsCommunicating skills을 대체 할 곳 SynonymFilterFactory를 사용합니다.

또한 단어를 막기 위해 PorterStemFilterFactory을 사용할 수 있습니다

EDIT 그러나, 이것은 그 토큰에 침입 한 후 따른 의미와 것이다, 그래서 하나의 토큰 작동 다음 몇 가지 방법 다시 합류. 이것은 또한 형태소 분석 때문에 부작용이 있습니다.

+0

감사합니다. Junaid 대답에 대해 :) 그러나 나는이 "동의어"를 미리 알기 란 어렵지 않습니다. 솔직이 "동의어"를 즉석에서 계산하도록 말하는 방법이 있습니까? levenhstein 거리가 2보다 작 으면 [단어 1]과 [단어 2]가 "동의어"임을 Solr에게 알릴 수 있습니까? – Etigi