두 코퍼스 (코퍼스 1 & 코퍼스 2), 코퍼스 1의 문서에는 코퍼스 2의 표절 된 문장이 들어 있습니다. Tf-Idf 방식을 사용하여 코퍼스 1의 문서 코퍼스 2의 용어에 대한 역 인덱스가 구축 된 2Tf-Idf 계산 두 개의 corpuses에 대한
곧, 각 두 문장 '비교를 위해, 나는 두 개의 TF - IDF 벡터를 구축 전 코사인 유사성을 사용하여 유사성을 측정하십시오.
제 질문은 코퍼스 1의 문장과 관련된 벡터의 구축 과정에서 제가 코퍼스 2 색인을 사용하여 Id 용어로 X 용어와 관련된 문서를 요약 한 것입니다. 올바른 방법입니까? 코퍼스 1에있는 일부 용어는 코퍼스 2에서 사용할 수 없으므로 Tf-idf 함수는이 용어에 대해 0을 반환합니다. 아니면 내가 코퍼스 1에 대한 또 다른 색인을 만들어야한다. (내 의견으로는 Tf-idf를 제거 할 것이다.)