0
항목 용어 TF-IDF 같습니다코사인 유사성은 K- 평균 알고리즘과 어떻게 사용됩니까? VSM에서의 벡터의 상이한 길이를 갖는 세 개의 텍스트 문서 벡터의
가가 Q1 : K-의해 사용 방법 코사인 유사성은 다음 클러스터가 어떻게 구성되어 않는이.
Q2 : TF-IDF 알 고를 사용할 때. 그것의 부정적인 가치를 생산 내 계산에 어떤 문제가 있습니까?
설명을 위해 벡터 길이가 다른 VSM (tf.idf) 벡터를 사용하십시오.
Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0)
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553)
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0)
나는 내 질문에 대한 설명을 줄 수있는 사람에게 감사드립니다.
이 질문은 프로그래밍보다는 수학에 뿌리를 둔 것처럼 보입니다. 이 질문은 * MathOverflow 또는 [수학] (http://math.stackexchange.com/help/on-topic)과 같은 다른 수학 관련 SE 사이트의 주제가 될 수도 있지만 게시하기 전에 자신의 주제에 대한 연구는 수행 할 수 있습니다. . – HPierce