2016-07-27 2 views
0

데이터 세트에서 k-means 클러스터링을 구현했습니다. 나는 급속 광부에서 주어진 병렬 및 편차 차트를보고 클러스터링 k를 분석하려고 시도했다.클러스터 동질성 분석 및 RapidMiner의 클러스터 거리 성능 연산자 사용

목표는 클러스터의 동질성을 분석하는 것입니다. 주어진 다양한 성능 모델 중 연산자 "클러스터 거리 성능"연산자가 k- 평균 클러스터링 결과에 사용됩니다.

  1. 이러한 분석을 제공 할 수있는 다른 연산자가 있습니까?
  2. 데이터 집합에는 큰 값 ( 수백 및 수천)이 포함 된 숫자 벡터가 있으며 극히 (십진수의 5 ~ 8 위까지) 인 데이터 집합이 있습니다.

    무게 중심 표 결과

    enter image description here

    및 성능 벡터 운영자 아래와 같이

나는 운영자 "클러스터 거리 공연"에서 얻는 결과를 해석하는 방법 확실하지 않다 결과는

enter image description here 누군가가 도와 줄 수 있습니까? Davies Bouldin의 가치가 더 작 으면 클러스터링이 더 좋습니다.

답변

0

"최상의"클러스터링을 찾으려면 k를 변경하고 다른 클러스터 유효성 측정 값을 계산하여 이들이 k의 변화에 ​​따라 어떻게 다른지 비교해야합니다. Davies-Bouldin은 "최고"가 최소로 표시되기 때문에 종종 훌륭한 것입니다. 가장 좋은 정의는 유효성 측정 (건전하고 논리적 인 기술을 기반으로 함)을 구성하는 데 사용 된 수학적 기술의 관점에서 나온 것이지만 결과가 실제로 의미가 있는지 결정하기 위해 항상 클러스터링을 조사해야합니다.

+0

가능한 모든 k 값을 반복하고 유효성 측정을 계산하는 프로세스 작성에 대한 지침이 필요하면 여기에서 예제를 볼 수 있습니다. http://rapidminernotes.blogspot.co.uk/2011/03/counting- clusters-part-ii.html – awchisholm