저는 Solr을 처음 접하고 기본적인 채점 모델을 연구하고 있습니다. 기본 점수 모델은 부울을 사용하여 문서 집합을 생성 한 다음 벡터 공간 모델을 사용하여 관련성에 따라 순위를 매기는 것으로 이해합니다. 근접 검색을 사용하는 동안 생성 결과가 벡터 공간 모델에 따라 순위가 매겨 지는지 또는 편집 거리에 따라 점수가 매겨 졌는지 알고 싶습니다.Solr 근접 검색 채점
2
A
답변
1
우선 VSM 점수는 org.apache.lucene.search.similarities.TFIDFSimilarity
에서 사용됩니다 (Lucene 최신 버전의 기본 유사성은 아닙니다). 예를 들어 org.apache.lucene.search.similarities.BM25Similarity
은 비슷한 것을 구현하지만 bag of words이라고합니다.
는 근접 검색의 경우, 기본 클래스 org.apache.lucene.search.similarities.Similarity 중첩 클래스 등 SpanQuery
및 PhraseQuery
같은 "조잡"쿼리를 기록 할 책임이 Similarity.SimScorer
있다. 일반적으로 sloppyFreq
을 계산하는 방법이 있습니다.이 값은 편집 거리의 함수이며 수식에서 추가 계수로 추가됩니다.
sloppyFreq
의 기본 구현 중 하나는 1.0f/(distance + 1)
이지만 필요에 따라 사용자 정의 할 수 있습니다.
답변 해 주셔서 감사합니다. 그래서 solr이 문서의 최종 VSM 점수에이 sloppyFreq 점수를 추가합니까? –