4

K-Means Clustering과 Vector Quantization의 차이점은 무엇입니까? 그들은 매우 비슷하게 보입니다.K-Means 클러스터링과 벡터 양자화의 차이점은 무엇입니까?

저는 숨겨진 마르코프 모델을 다루고 있으며, 특징 벡터로부터 심볼을 추출해야합니다.

심볼을 추출하려면 벡터 양자화 또는 Kmeans 클러스터링을 수행합니까?

+1

새로운 Computational Science Q & A가이 질문에 더 적합한 장소가 될 수 있습니까? http://scicomp.stackexchange.com –

답변

12

K- 평균은 벡터 양자화의 한 유형입니다.

+0

정확히. K-means 클러스터링은 벡터 양자화를 수행하는 한 가지 방법입니다. K- 평균을 통해 발견 된 중심은 (정보 이론 용어를 사용하여) * 코드북 * 기호 * 또는 * 코드 단어 *입니다. 벡터를 디코딩하려면 벡터가 가장 가까운 중심 (또는 코드 워드)에 벡터를 지정합니다. –

3

K- 평균 알고리즘은 경험적 분포의 경우에 대한 유명한 "Lloyd I"양자화 알고리즘의 특수화입니다. (참조, Lloyd)

Lloyd I 알고리즘은 감소하는 2 차 왜곡을 갖는 양자화 기의 시퀀스를 산출하는 것으로 입증되었다. 그러나 1 차원 로그 ​​오목 분포의 특별한 경우를 제외하고는 항상 2 차 최적 양자화기에 수렴하지는 않습니다. (특히 클러스터링 문제에 대한 경험적 분포를 다루는 경우 양자화 오류에 대한 로컬 최소값이 있습니다.)

최적의 양자화기에 항상 수렴하는 방법은 소위 CLVQ 알고리즘입니다. 보다 일반적인 L^p 양자화의 문제. 이것은 일종의 확률 적 구배 (Stochastic Gradient) 방법입니다. (Pagès 참조)

유전 알고리즘을 기반으로 한 접근법이 있습니다. (Hamida et al. 참조), 그리고/또는 더 빠르게 수렴하는 일차원 적 사건에 대한 고전적 최적화 절차 (Pagès, Printems).