2013-07-31 2 views
0

MS Word 문서의 큰 자료에 사용자 선택 항목을 태그하는 응용 프로그램이 있습니다. Google은 이러한 선택 사항에 하나 이상의 키워드 태그 및 일반적으로 제목 태그를 표시합니다. 선택한 텍스트가 즉시 분석되는 기능을 추가하고 태그가있는 태그와 가장 유사한 키워드 및 제목 태그 목록을 표시합니다.Lucene/SOLR 색인을 사용하여 비슷한 결과 찾기

우리는 SOLR 색인을 사용하고 있습니다. 선택된 텍스트를 쿼리 자체로 발행하여 비슷한 선택을 반환 할 수 있다고 들었습니다. 그러나 선택한 텍스트의 길이는 200 ~ 6000 단어 사이가 될 수 있습니다. 6000 단어의 쿼리는 메모리 사용면에서 문제가 될 수 있습니다!

매우 적극적인 스톱 워드 제거를 수행하여 쿼리의 단어 수를 크게 줄이고 매우 의미있는 단어 만 남길 수 있다고 생각했습니다. 우리는 지난 10 년 동안이 코퍼스를 사용해 왔으며 사용 된 주제와 어휘에 대해 매우 잘 알고 있으므로 쉽게 할 수 있습니다. 그러나 문제는 일반 사용자가 색인을 검색 할 수 있도록 동일한 색인을 사용한다는 것입니다. 일반 단어를 너무 많이 제거하면 일반 검색어가 제대로 작동하지 않을 수 있습니다 (특히 구문 검색).

문서 전반에 걸쳐 임의로 확산되는 것이 아니라 쿼리의 텍스트가 포함 된 결과를 더 작은 범위 내에서 강조하고 싶습니다.

또 다른 문제는 중첩 된 선택을 허용한다는 것입니다. 바깥 쪽 선택은 본질적으로 더 일반적 일 수 있으며 약 5000 자 길이 될 수 있으며, 안쪽 선택은 더 짧고 국소 적으로보다 구체적이 될 것입니다. 그러나 두 선택 모두 동일한 텍스트를 포함하기 때문에 SOLR은 외부 선택이 그다지 관련이 없을 때 높은 순위를 갖습니다.

SOLR 쿼리 구문 분석기 설명서를 읽는 데 지난 몇 일을 보냈습니다. 이 일을하기 위해 내가해야 할 일이 정확히 무엇인지 확신 할 수 없다. 어떤 제안이라도 대단히 감사 할 것입니다.

답변

0

Solr에는 멀티 코어 기능이 있습니다. 따라서 내부 업무에 핵심을 둘 수 있고 공개 도메인 용으로 다른 핵심을 공개 할 수 있다면 문제가 해결 될 수 있습니다. 이 섹션 http://wiki.apache.org/solr/Solr.xml%20(supported%20through%204.x) 을 참조하거나 solr 참조 설명서에서 Solr cores 및 solr.xml 섹션을 참조 할 수 있습니다.