나는 코사인 거리를 계산하기 위해 상대 주파수에 대해 TFIDF를 사용하려고합니다. 한 문서에서 10 단어를 선택했습니다 : 파일 1과 10 단어 및 빈도를 사용하여 파일 1과 유사한 10 개의 파일을 확인하면서 내 폴더에서 다른 10 개의 파일을 선택했습니다. 폴더의 파일 총 수는 다음과 같습니다. 46.i DF (단어가 나타나는 문서의 수) IDF (파일 (46)/DF의 총 수)와 TFIDF (한 문서의 단어 빈도)의 곱인 IDF IDF)친화적 인 주파수, 코사인의 유사성에 대한 TFIDF 사용
는 질문 :
내가 위에서 말했다 하나 개의 문서에있는 모든 10 개 단어의 TFIDF을받은 후, 100 % 정확 어떤 가정 말 : 파일 2, 나는 각각에 대해 모든 TFIDF를 추가하려면 어떻게해야합니까 파일 2에 대한 TFIDF를 얻으려면 함께 10 단어?
코사인 거리 란 무엇입니까?
예를 들어 도움을 줄 수 있습니까?