2

유사한 문서를 클러스터링하기 위해 tf-idf를 사용하려고합니다. 내 시스템의 가장 큰 단점 중 하나는 코사인 유사성을 사용하여 어느 벡터를 그룹화해야하는지 결정하는 것입니다.tf-idf (삼각형 부등식)에 대한 코사인 유사성 대안

문제는 코사인 유사성이 삼각형 부등식을 만족시키지 않는다는 것입니다. 필자의 경우 여러 클러스터에서 동일한 벡터를 사용할 수 없기 때문에 모든 클러스터를 공통 요소로 병합해야합니다. 이렇게하면 서로 유사하지 않더라도 두 개의 문서가 함께 그룹화 될 수 있습니다.

측정하는 또 다른 방법은 두 문서의 유사성 그래서 거기 :

  • 벡터가 자신의 크기에 관계없이 자신의 방향에 따라 매우 유사한 점수를
  • 충족 삼각형 불평등 : A는 B와 유사한 경우 B는 C와 유사하지만 A는 C와 유사합니다.

답변

0

정규화 된 데이터에서 코사인은 유클리드 제곱입니다.

간단히 L2는 벡터를 단위 길이로 정규화하고 유클리드를 사용합니다.

0

도움이 될지 확실하지 않습니다. 이 백서에서 TS-SS 방법을 살펴보십시오. 여기에는 Cosine과 ED의 단점이 포함되어있어 벡터 간의 유사성을보다 정확하게 규명하는 데 도움이됩니다. 더 높은 정확도는 어떤 문서가 매우 유사하고 함께 그룹화 될 수 있는지 이해하는 데 도움이됩니다. 그 논문은 왜 TS-SS가 당신을 도울 수 있는지 보여줍니다.

enter image description here