클러스터하고 싶은 큰 데이터 세트가 있습니다. 시험판 실행 크기는 2,500 개입니다. '실제 계약'을 실행하면 최소한 20,000 개의 개체를 처리해야합니다.코사인 유사성으로 클러스터링
이 오브젝트들은 그들 사이에 코사인 유사성을가집니다. 이 코사인 유사성은 수학적 거리 메트릭의 요구 사항을 충족시키지 못합니다. 그것은 삼각형 부등식을 만족시키지 못한다.
저는 예상했던 클러스터의 수를 미리 지정하지 않아도 비슷한 객체를 모으는 "자연스러운"방법으로 클러스터하고 싶습니다.
누구든지 알고리즘을 알고 있습니까? 실제로, 나는 a) 거리 메트릭과 b) 미리 지정된 클러스터 수를 요구하지 않는 알고리즘을 찾고있다.
감사합니다.
이 질문은 여기 전에 물어되었습니다 Clustering from the cosine similarity values 여기 (하지만이 솔루션은 클러스터링을 K가-의미합니다), 그리고 : Effective clustering of a similarity matrix (그러나이 솔루션은 다소 애매)
출처 http://en.wikipedia.org/wiki/Cosine_similarity "이 코리네 거리에"코사인 유사도 "라는 용어가 사용되었지만 각도의 코사인 값이 각도 자체를 계산하기위한 편리한 메커니즘이며 의미의 일부가 아닙니다.각도 상사 성 계수의 장점은 차이 계수 (1에서 빼기) * 결과 함수가 적절한 거리 메트릭 *이 될 때 첫 번째 의미의 경우와 다르다는 것입니다. " – phs
감사합니다! 불행히도 저는 더 구체적이어야합니다. 나는 자신을 정의한 코사인 유사성을 사용하고 있습니다. 삼각형 불평등을 만족시키지 못합니다. – user1473883