0

kmeans에서 k = 2 인 동등한 클러스터 크기 출력을 얻기 위해 수정 된 Lloyd의 알고리즘을 사용하고 있습니다. 위의 알고리즘은 경험적으로 나를 위해 잘 작동 이제동일한 클러스터 크기 출력을 제공하는 k = 2에 대한 Kmeans 알고리즘

- Randomly choose 2 points as initialization for the 2 clusters (denoted as c1, c2) 
- Repeat below steps until convergence 
    - Sort all points xi according to ascending values of ||xi-c1|| - ||xi-c2||, i.e. differences in distances to the first and the second cluster 
    - Put top 50% points in cluster 1 , others in cluster 2 
    - Recalculate centroids as average of the allocated points (as usual in Lloyd's) 

:

  1. 이주는 균형 잡힌 클러스터
  2. 그것은 항상

은 한 목표를 감소 다음은 의사입니다 문학에 앞서 알고리즘이 제안되거나 분석 되었습니까? 나는 약간 참고를 만족시킬 수 있는가? 다양한 크기의 제약 문학에서 여러 번

https://elki-project.github.io/tutorial/same-size_k_means

내가 본 K-수단을,하지만 난에 대한 참조가 없습니다 : 2 개 이상의 클러스터에 대한

답변

2

더 일반적인 버전은 여기에 설명 손. 나는 이것을 확신하지 못한다 : 클러스터가 같은 크기를 갖도록 강제하는 것은 의도적으로 최악의 근사를 선택하는 것과 같이 최소 제곱근 근사 IMHO를 찾는 k- 수단 아이디어와 모순된다.

+0

참고해 주셔서 감사합니다. 필자의 의견으로는 내 알고리즘과 참조 알고리즘 사이에 결정적인 차이가 있습니다. k = 2 인 경우 점 할당 단계는 위와 똑같이 해결할 수 있지만보다 일반적인 k> 2 인 경우 그럴 수있다. 따라서 위의 링크에서 k = 2 일 때 불필요한 로컬 포인트 스와핑 절차를 사용합니다. k = 2의 경우에 대한 증명이 어딘가에 존재하는지 알고 싶었습니다. – vervenumen

+0

k = 2 사례가 많은 특별한 관심사라고 생각하지 않습니다. 일반적으로 더 많은 클러스터를 찾고 있기 때문입니다. 나는 metrical indexing에서 k = 2에 대한 이런 종류의 연산을 확실히 보아왔다. –