Tf-Idf 계산 두 개의 corpuses에 대한

두 코퍼스 (코퍼스 1 & 코퍼스 2), 코퍼스 1의 문서에는 코퍼스 2의 표절 된 문장이 들어 있습니다. Tf-Idf 방식을 사용하여 코퍼스 1의 문서 코퍼스 2의 용어에 대한 역 인덱스가 구축 된 2Tf-Idf 계산 두 개의 corpuses에 대한

코퍼스의 문서에 대해,로는 다음과 같습니다

곧, 각 두 문장 '비교를 위해, 나는 두 개의 TF - IDF 벡터를 구축 전 코사인 유사성을 사용하여 유사성을 측정하십시오.

제 질문은 코퍼스 1의 문장과 관련된 벡터의 구축 과정에서 제가 코퍼스 2 색인을 사용하여 Id 용어로 X 용어와 관련된 문서를 요약 한 것입니다. 올바른 방법입니까? 코퍼스 1에있는 일부 용어는 코퍼스 2에서 사용할 수 없으므로 Tf-idf 함수는이 용어에 대해 0을 반환합니다. 아니면 내가 코퍼스 1에 대한 또 다른 색인을 만들어야한다. (내 의견으로는 Tf-idf를 제거 할 것이다.)

출처

2017-01-15 MIB Minion

우리는 작업을 수행하는 데 필요한 대상 코퍼스를 색인화해야합니다 (예 :원본 및 표절화 된 코퍼스 2 개가있는 경우). 검색해야하므로 원본 색인을 생성해야합니다.

출처

2017-02-27 16:48:31

Tf-Idf 계산 두 개의 corpuses에 대한

답변

관련 문제