2015-01-06 8 views
0

2 개의 텍스트 문서를 DIFF가 아닌 텍스트가 일치하는 정도를 지능적으로 확인하는 소프트웨어를 만들려고합니다. Google에서 상당히 검색 한 적이 있습니다. 그래프 & TFIDF 인 2 가지.2 개의 텍스트 문서를 검색하는 가장 좋은 방법

하지만 둘 사이에 혼란 스러워요, 나는 하나의 텍스트 문서

당신이 코사인 거리에 의해 문서의 유사성을 측정 보면나요

답변

0

에 맞게 다른 기술이 또한 & 더 나은되는 몰라? 코사인 유사도는 내부 제품 공간의 두 벡터 사이의 유사도를 나타내는 값입니다. http://en.wikipedia.org/wiki/Cosine_similarity

문서 A와 B가있는 경우 문서 A와 B에 대한 두 개의 용어 벡터를 만들 수 있습니다 벡터 A라는 용어는 문서 A와 문서의 각 단어 빈도를 포함합니다. 원시 단어 빈도 대신 TF-IDF 가중치를 사용할 수 있습니다. 문서 B에도 동일하게 적용됩니다. 용어 벡터 A와 B가 있으면 의사 A와 B를 나타내는 용어 벡터 A와 B의 코사인 유사성을 계산할 수 있습니다. 용어 벡터를 만들기 전에 중지 단어 필터링과 같은 사전 처리 작업을 수행합니다.

+0

우수 답변. 하지만 인공 지능을 사용할 수 있습니까? –

+0

의미 론적 유사성을 측정하는 것을 의미합니까? 즉 의미 또는 의미 내용에 기초한 두 문서의 유사성? 온톨로지를 사용하여 의미 론적 유사성을 측정하여 문서 내부의 용어/개념 간의 거리를 정의 할 수 있습니다. – Kasun

+0

흠, 그게 도움이됩니다. 감사 –