현재 클러스터링을 배우고 있습니다. 내 데이터베이스에 저장하는 가입자의 average_duration_of_call의 k-mean 클러스터를 수행했습니다. 에서 3 센터 클러스터 1 (53.33369 초) -367 가입자, cluster2 (121.67123 초) -128 가입자, cluster3 (369.09000 초) -8 가입자와 함께 처음 실행됩니다. 108 가입자 cluster3 (151.58) -43 가입자 cluster4 (95 초) -다른 중심에서 최상의 K 평균 클러스터를 찾는 방법
는 다시 I는 클러스터 1 (904.66670 초) -1 가입자 cluster2 (27.7 초)로서 수득 6와 중앙은 중심으로 클러스터를 재실행 - 135 subscriber, cluster5 (59.5 sec) - 207 subscriber, cluster6 (278 sec) -9 subscriber.
이제 내 질문은 최고의 클러스터 및 최상의 클러스터를 찾는 방법입니다. 어떤 경험 도움이 필요합니다 (현재 저는 R 언어를 사용하고 있습니다)
이 문제의 참고 도서 이름을 알려주십시오. – Krish
도 BIC는 [Bayesian information criterion] (http://en.wikipedia.org/wiki/Bayesian_information_criterion) 또는 다른 것을 의미합니까? – Krish
Gan, Ma, Wu의 "데이터 클러스터링"은 존재하는 다양한 변형에 대해 철저히 조사하고 있습니다. 실제로 Weka 책과 같은 많은 분류가 많은 책은 클러스터링을 거의 다루지 않습니다. 예를 들어 x-means 알고리즘을 보면 BIC I belive를 사용합니다. –