2013-04-30 4 views
2

현재 클러스터링을 배우고 있습니다. 내 데이터베이스에 저장하는 가입자의 average_duration_of_call의 k-mean 클러스터를 수행했습니다. 에서 3 센터 클러스터 1 (53.33369 초) -367 가입자, cluster2 (121.67123 초) -128 가입자, cluster3 (369.09000 초) -8 가입자와 함께 처음 실행됩니다. 108 가입자 cluster3 (151.58) -43 가입자 cluster4 (95 초) -다른 중심에서 최상의 K 평균 클러스터를 찾는 방법

는 다시 I는 클러스터 1 (904.66670 초) -1 가입자 cluster2 (27.7 초)로서 수득 6와 중앙은 중심으로 클러스터를 재실행 - 135 subscriber, cluster5 (59.5 sec) - 207 subscriber, cluster6 (278 sec) -9 subscriber.

이제 내 질문은 최고의 클러스터 및 최상의 클러스터를 찾는 방법입니다. 어떤 경험 도움이 필요합니다 (현재 저는 R 언어를 사용하고 있습니다)

답변

2

초보자의 경우 밀도 기반 클러스터링을 시작하여 K의 초기 값이 필요하지 않도록하는 것이 좋습니다. 처음에 ε = 10 및 minpts = 5를 사용하여 dbscan 클러스터링을 시작한 다음 생성 된 클러스터 수를 확인할 수 있습니다. 그 후에 엡실론 (11, 12, ... 15)이 부드럽게 증가하고 분 (4, 3, .. 1)이 감소하고 매번 생성 된 클러스터의 수를 확인하십시오. 그런 다음이 수의 평균은 실제 클러스터의 평균 수를 반영한다고 가정합니다.

k-mean 클러스터링을 적용해야한다면 Selection of K in K-means clustering 종이가 유용 할 수 있습니다.

1

음, k-means는 이미 당신의 제곱 합에 대한 점수를 계산합니다.

더 나은 점수를 얻은 결과를 선택하십시오.

그러나 k를 높이면 자연스럽게 점수가 올라갑니다. 분명히 k를 데이터 세트 크기로 설정하면 0이됩니다. 그러면 BIC 또는 Silhouette Coefficient (위키 피 디아에서보기)를 사용할 수 있습니다.

아, 책을 사용해보십시오. 이것은 고전적인 질문이며, 좋은 책으로 다뤄져야합니다.

+0

이 문제의 참고 도서 이름을 알려주십시오. – Krish

+0

도 BIC는 [Bayesian information criterion] (http://en.wikipedia.org/wiki/Bayesian_information_criterion) 또는 다른 것을 의미합니까? – Krish

+0

Gan, Ma, Wu의 "데이터 클러스터링"은 존재하는 다양한 변형에 대해 철저히 조사하고 있습니다. 실제로 Weka 책과 같은 많은 분류가 많은 책은 클러스터링을 거의 다루지 않습니다. 예를 들어 x-means 알고리즘을 보면 BIC I belive를 사용합니다. –