0

항목 용어 TF-IDF 같습니다코사인 유사성은 K- 평균 알고리즘과 어떻게 사용됩니까? VSM에서의 벡터의 상이한 길이를 갖는 세 개의 텍스트 문서 벡터의

가 Q1 : K-의해 사용 방법 코사인 유사성은 다음 클러스터가 어떻게 구성되어 않는이.

Q2 : TF-IDF 알 고를 사용할 때. 그것의 부정적인 가치를 생산 내 계산에 어떤 문제가 있습니까?

설명을 위해 벡터 길이가 다른 VSM (tf.idf) 벡터를 사용하십시오.

Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0) 
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553) 
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0) 

나는 내 질문에 대한 설명을 줄 수있는 사람에게 감사드립니다.

+0

이 질문은 프로그래밍보다는 수학에 뿌리를 둔 것처럼 보입니다. 이 질문은 * MathOverflow 또는 [수학] (http://math.stackexchange.com/help/on-topic)과 같은 다른 수학 관련 SE 사이트의 주제가 될 수도 있지만 게시하기 전에 자신의 주제에 대한 연구는 수행 할 수 있습니다. . – HPierce

답변

0

코사인 유사성은 유클리드 거리가 아닌 벡터/k 평균 중심의 내적을 취한다는 것을 의미합니다.

점 제품은 모든 치수가 a.x b.x + a.y b.y ... + a.zz * b.zz입니다. 일반적으로 벡터를 먼저 정규화합니다. 그런 다음 결과에 대해 acos()를 호출하십시오.

본질적으로 결과를 무작위로 뭉친 클러스터가 아닌 섹터로 나눕니다.