2016-08-30 1 views
0

왓슨의 문서 변환 서비스를 사용하여 많은 양의 문서를 세그먼트 ("답변 단위")로 분해하여 검색 및 순위 솔라 컬렉션에 추가했습니다. 해답 집합 중 하나에서 복사/붙여 넣기 (150 단어)를 사용하여 컬렉션에 대해 쿼리를 실행하면 검색 및 순위가 많은 문서를 반환하고 (예상대로) 결과에 포함 된 응답 단위가 포함됩니다 쿼리 텍스트가 복사되었습니다. 그러나 그 대답 단위는 최고의 결과는 아닙니다. 일반적으로 상단에서 7 또는 8 개의 문서입니다. 쿼리 텍스트를 따옴표로 묶은 경우 Solr은 구문을 올바로 고려하여 해당 단일 대답 단위 만 반환합니다. 인용 부호가 없어도 검색어의 정확한 문구가 포함 된 문서가 결과의 최상위 문서가 아니어야합니까?검색 및 순위 솔라 쿼리의 첫 번째 결과와 정확히 일치하는 문서가 아닌 이유는 무엇입니까?

+0

RaR이 지원하는지 잘 모르겠지만 정기적 인 Solr의 경우 'debugQuery = true'를 쿼리에 추가하면 점수에 기여하는 용어와 순위에 대한 정보가 제공됩니다. 점수가 계산되는 방식은 어떤 Similarity 클래스가 활성 상태인지에 따라 다르며 RaR은 사용자 정의 클래스를 사용하거나 다른 필드로 문서 점수를 매길 수 있습니다. – MatsLindh

답변

2

/endpoint를 사용하여 검색하는 것으로 보입니다. 검색을 위해 구문 쿼리를 사용하지 않으므로 최고의 결과가 아니어야합니다./select는 idf score와 같은 것을 고려하여 최종 solr 점수를 산출하는 부울 쿼리를 사용합니다. 따옴표를 추가하여 응용 프로그램에서 인용문 쿼리를 강제로 수행 할 수 있습니다. 이제는 어떤 유형의 쿼리를 응용 프로그램에 사용할 것인지를 아는 책임이 있습니다.

이제는/fcselect를 사용하고 시스템을 교육하면 시간이 지남에 따라 질문자/문서 쌍의 문구가 실제로 중요한 경우 순위가 "습득"됩니다. 그런 다음 해당 문서를 더 높은 순위에 다시 정렬합니다. 이것은 본질적으로 RnR의 요점은 문서를 찾기 위해 다른 (종종 복잡한) solr 쿼리를 작성해야하는 응용 프로그램없이 가장 관련성 높은 문서를 맨 위로 가져 오는 방법을 쿼리 및 문서에서 배우는 것입니다.