유사한 문서를 클러스터링하기 위해 tf-idf를 사용하려고합니다. 내 시스템의 가장 큰 단점 중 하나는 코사인 유사성을 사용하여 어느 벡터를 그룹화해야하는지 결정하는 것입니다.tf-idf (삼각형 부등식)에 대한 코사인 유사성 대안
문제는 코사인 유사성이 삼각형 부등식을 만족시키지 않는다는 것입니다. 필자의 경우 여러 클러스터에서 동일한 벡터를 사용할 수 없기 때문에 모든 클러스터를 공통 요소로 병합해야합니다. 이렇게하면 서로 유사하지 않더라도 두 개의 문서가 함께 그룹화 될 수 있습니다.
측정하는 또 다른 방법은 두 문서의 유사성 그래서 거기 :
- 벡터가 자신의 크기에 관계없이 자신의 방향에 따라 매우 유사한 점수를
- 충족 삼각형 불평등 : A는 B와 유사한 경우 B는 C와 유사하지만 A는 C와 유사합니다.