2009-10-07 1 views
7

플로트가 걸리는 것을 알고 있지만 결과 내에서 다양한 수준의 부스팅을위한 전형적인 값은 무엇입니까? 예를 들어Lucene/Lucene.NET - Document.SetBoost() 값은 무엇입니까?

: 나는 10 % 문서의 비중을 높일 그때가 1.1 설정해야 원하는 경우

? 20 %의 경우 1.2?

부스트를 75.0과 같은 값으로 설정하면 어떻게됩니까? 또는 500.0?

편집 : 고정 포맷

답변

6

수식에 대한 Lucene Similarity Documentation를 참조하십시오. 원칙적으로 다른 모든 요소는 동일하지만 문서의 부스트를 1.1로 설정하면 1.0의 부스트가있는 동일한 문서와 비교할 때 10 % 높은 점수가 부여됩니다. 검색 할 때 본질적으로 선호해야하는 일련의 문서가 있다면이 방법이 좋습니다. 문서 부스트는 인덱싱 시간 특성이므로 문서를 다시 인덱스하지 않고 문서 부스트를 변경할 수 없습니다. 용어 득점, 규범 등을 포함하여 득점에 중요한 다른 요소가 있습니다. 자세한 내용은 Debugging Relevance Issues in Search을 참조하십시오.

+1

그러나 문서 및 필드 향상은 3 비트 가수로 인코딩 된 단일 바이트로 끝납니다. 따라서 25 % 미만의 차이는 완전히 눈에 띄지 않을 수 있습니다. – jsalvata

2

Yuval이 말한 것에 더해졌습니다. 이 값은 필드 부스트 & 문서 부스트 기능입니다. 부스트 값은 단일 바이트로 인코딩됩니다. 따라서이 값을 저장하는 동안 정밀도가 손실 될 수 있습니다. Searcher.Explain()을 사용하여 디버깅하면 적절한 양의 부스트를 얻을 수 있습니다.

부스트 값을 보존하려면 (예 : 현재 색인에서 색인을 다시 작성하려는 경우와 같이 유용합니다) 저장된 항목에 추가 할 수 있습니다.

2

부스트에 대해 기억해야 할 중요한 것은 별도로 접근하지 않는 것입니다. 글로벌 전략의 일부로 고려해야하고, 관련성을 높이기 위해 사용 된 각 기준의 목록을 작성한 다음 해당 기준을 주문해야합니다. 각 기준 사이의 관계를 정의하십시오. 정기적으로 색인을 다시 생성하거나 새 문서를 추가하고 있습니까? 정기적으로 색인을 다시 작성하는 경우 문서 부스트 기준을 조정할 수 있습니다. 사전에 철저히 검토 할 필요가없는 경우