0
안녕하세요 저는 문서 목록에서 가장 대표적인 문서가 무엇인지 알아 내려고하고 있습니다. 그 일을 할 수있는 것에 관한 자료 나 문서가 있는지 궁금합니다. 문서 목록의 가장 대표적인 문서
- 제거 중지 단어, bigrams에게
- 행렬 곱셈 및 DF 곱한 TF의 합계를 사용하여 : 내가 함께 나이 작업을 수행하는 데 도움이 몇 가지 간단한 통계를 뒀다 평균 TF * DF에 가장 근접한 TF * DF 점수가 검색됩니다.
따라서 DF가 높을수록 더 많은 코퍼스를 대표한다는 아이디어가 있습니다. TF 점수가 평균에 맞게 최적화되면 높은 DF 단어를 과도하게 사용하거나 부족한 문서는 처벌됩니다.
사람들이 마주 친 뭔가가 더 좋습니까?
우물 IDF는 코퍼스의 중요한 국화 단어에 벌점을줍니다. 따라서 자료의 90 %는 이민을 언급하고 10 %는 환경을 언급합니다. IDF는 더 대표적인 경우에도 "이민"을 처벌 할 것입니다. – eljusticiero67