2017-04-07 2 views
0

안녕하세요 저는 문서 목록에서 가장 대표적인 문서가 무엇인지 알아 내려고하고 있습니다. 그 일을 할 수있는 것에 관한 자료 나 문서가 있는지 궁금합니다. 문서 목록의 가장 대표적인 문서

  • 무엇이든간에 문서가 가지고있는 문서의 점수를 얻을

    • 제거 중지 단어, bigrams에게
    • 행렬 곱셈 및 DF 곱한 TF의 합계를 사용하여 : 내가 함께 나이 작업을 수행하는 데 도움이 몇 가지 간단한 통계를 뒀다 평균 TF * DF에 가장 근접한 TF * DF 점수가 검색됩니다.

    따라서 DF가 높을수록 더 많은 코퍼스를 대표한다는 아이디어가 있습니다. TF 점수가 평균에 맞게 최적화되면 높은 DF 단어를 과도하게 사용하거나 부족한 문서는 처벌됩니다.

    사람들이 마주 친 뭔가가 더 좋습니까?

  • 답변

    0

    정확히 DF를 언급하고 있습니까? 또는 도큐멘트 빈도를 의미합니까? 페널티를 도입하기 위해서는 인버스를 사용해야합니다. 최근에 더 빠른 결과를 얻기 위해 사전을 사용하는 몇 가지 도구를 구현했습니다. 그들을 제거 할 필요가 없습니다 그래서 IDF는 중지 단어를 처벌해야 - TF, 또한

    token_doc_count = { doc_id: {token_id: count}} 
    tokens_freq_corpus = {token_id: count} 
    tokened_docs = {doc_id: list_of_tokens or string_of_tokens} 
    

    :

    당신은 그들 중 세 가지가 필요합니다.

    +0

    우물 IDF는 코퍼스의 중요한 국화 단어에 벌점을줍니다. 따라서 자료의 90 %는 이민을 언급하고 10 %는 환경을 언급합니다. IDF는 더 대표적인 경우에도 "이민"을 처벌 할 것입니다. – eljusticiero67