쿼리 및 문서 유사성 측정 방법을 개선하는 방법 python TFIDF, BM25 precision, recall

쿼리 및 문서 모두에 대해 TF-IDF를 계산하고 COS 거리를 사용하여 결과의 순위를 매기고 상위 50 개의 유사한 문서를 얻으려고했습니다. 마찬가지로 BM25 점수를 계산하고 가장 높은 BM25 점수를 No.1로 순위를 매기고 상위 50 위 유사한 문서를 얻습니다.쿼리 및 문서 유사성 측정 방법을 개선하는 방법 python TFIDF, BM25 precision, recall

그러나 TF-IDF와 BM25 모두 결과가 좋지 않습니다.

은 (데이터 세트는 라벨 테스트 데이터 세트의 크기는 1,400 문서입니다.) :

For example in the testing dataset judgment 

the queryID=1 
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt

....................... ...............

입력 후 queryID = 1은 검색 시스템에 생성됩니다. 총 1400 건의 문서 중 365 건이 검색되었습니다.

그래서 제가

the system might only return the relevant document ID: 38.txt

마찬가지로 queryID를 = 1 순위 IT-IDF 365 개 문서

사용한 I는 BM25가 queryID를 = 1 순위 (365)을 선택하여 365 개 문서

the system might only return the relevant document ID: 19.txt

사용 365 문서에서 수동으로 문서를 작성합니다. 실제로 관련 문서 ID : 19.txt, 25.txt, 35.txt, 38.txt, 45.txt 및 기타 관련이없는 문서 ID로 구성됩니다.

불완전한 유사성 측정으로 인해 정확도 및 리콜에 영향을줍니다. 정확도, 회상 또는 순위 방법을 향상시키는 방법을 알고 있니?

출처

2016-12-05 dd90p

나는 정보 검색을 위해 한발 더 나아가고 언어 모델을 사용해야한다고 생각한다. 이 Tutorial from Stanford University을 사용하십시오.

출처

2016-12-05 13:30:48 Alikbar

OP를 좋은 자습서로 가리키고 있지만 답변을 자세히 작성하면 몇 가지 소개 아이디어를 제공 할 수 있으며 OP 모델의 언어 모델이 OP 작업에 더 적합한 이유를 말할 수 있습니다. 그렇지 않으면 주석으로 쓸 수 있습니다. –

쿼리 및 문서 유사성 측정 방법을 개선하는 방법 python TFIDF, BM25 precision, recall

답변

관련 문제