2014-11-07 1 views
0

k- 평균 알고리즘을 사용하여 문서 집합을 클러스터링합니다.8 클러스터가있을 때 샘플의 90 %가 하나의 클러스터에 속하는 이유는 무엇입니까?

(파라미터는 - 클러스터 = 8, 서로 다른 무게 중심에 대한 실행 횟수 = 10의 수) 문서 번호 5800

있다

놀랍게도 클러스터링 결과

90 % (최종 클러스터) 9 %의 문서가 클러스터 0 (첫 번째 클러스터)에 속합니다.

나머지 6 개 클러스터에는 하나의 샘플 만 있습니다. 이것에 대한 이유는 무엇일까요?

+0

이 http://stats.stackexchange.com에 물어 잘못 .. 필요한이 시나리오의 원인이 가능한 "버그"를 많이 없습니다 - 그리고 그들은 더 많은 정보가 필요합니다. – Paul

답변

1

K- 평균 클러스터링은 각 포인트와 각 포인트가 속한 클러스터의 중심점 간의 거리의 합을 최소화하려고 시도합니다. 따라서 점의 90 %가 서로 가깝다면 그 점과 클러스터 중심 간의 거리의 합은 상당히 작습니다. 따라서 k-means 해결 알고리즘은 중심에 중 심선을 배치합니다. 단일 점은 다른 점과 실제로 떨어져 있기 때문에 자체 클러스터에 저장되며, 다른 점을 가진 점의 클러스터는 최적이되지 않습니다.

+0

감사합니다. Akavall. 나는 더 많은 데이터를 랜덤화할 필요가있다. –

1

K- 수단은 노이즈에 매우 민감합니다!

데이터와 멀리 떨어져있는 잡음은 제곱의 편차가 더욱 커지면 더욱 큰 영향을받습니다. 이것은 k- 수단이 이것에 정말로 민감하게 만듭니다.

N (0; 0.1)을 50 포인트, 100을 1 포인트, 50 포인트를 분산시킨 데이터 세트를 생성합니다. k- 수단을 k = 2로 실행하면 get 그 하나는 클러스터를 가리키고 두 개의 실제 클러스터는 병합됩니다.

k-means가 일 때 가정하면이 작동합니다. 데이터의 최소 제곱 양자화를 찾습니다. 데이터 세트의 "덩어리"에 대해서는 신경 쓰지 않습니다.

이상치가있는 경우 1 요소 클러스터를 만드는 것이 이점이 될 수 있습니다 (여기에 분명히 적어도 6 개의 이상치가 있음). 그러한 경우, k 요소를 얻는 한 요소 클러스터 수만큼 k를 늘려야 할 수도 있습니다. 또는 특이점 탐지 방법을 사용하거나 DBSCAN과 같은 클러스터링 알고리즘을 사용할 수 있습니다. 소음.

+0

내 마음 속의 가장 큰 문제 중 하나를 묘사하는 .thanks @ Anony-Mousse –

0

K- 평균은 실제로 노이즈에 민감하지만 데이터를 조사합니다! 거리 측정을 적용하기 전에 "실제 데이터"를 사전 처리 했습니까? 예상 거리 메트릭이 근접 거리를 나타 냅니까?

는 K-수단