2013-07-27 2 views
1

I는 다음과 같은 데이터를 클러스터 분석 (샘플)을 수행 할 :클러스터링 이진 데이터

ID  CODE1  CODE2  CODE3  CODE4  CODE5  CODE6 
    ------------------------------------------------------------------ 
    00001  0   1   1   0   0   0 
    00002  1   0   0   0   1   1 
    00003  0   1   0   1   1   1 
    00004  1   1   1   0   1   0 
    ... 
1은 사람이 코드의 존재를 나타낸다

, 0 부재를 .. 는 K-수단되거나 이러한 종류의 데이터 (약 백만 개의 고유 ID)에 대한 코드를 클러스터링하는 데 가장 적합한 계층 적 클러스터링 및 거리 측정은 무엇입니까? 이 두 가지 방법 모두 적절하지 않은 경우 가장 적절하다고 생각되는 것은 무엇입니까?

감사합니다.

답변

1

아니요, k- 수단은 이진 데이터에 대해 많은 의미를 갖지 않습니다.

k-means는 을 의미하기 때문에을 의미합니다. 그러나 바이너리 데이터의 평균 벡터는 무엇입니까?

클러스터 "센터"는 데이터 공간에 포함되지 않으며 입력 데이터와 다릅니다. 그것은 내게 적절한 "중심"처럼 보이지 않습니다. 그것은 당신의 물건과 완전히 다릅니다.

클러스터 "센터"는 센터의 어딘가에 있고 모든 데이터가 모퉁이에 있기 때문에 실제 클러스터 멤버보다 클러스터에 더 가깝게됩니다.

귀하의 데이터 유형에 대한 유사 기능을 진지하게 조사하십시오. 그런 다음이 거리 함수로 작동하는 클러스터링 알고리즘을 선택하십시오. 계층 적 클러스터링은 매우 일반적이지만 실제로는 느립니다. 그러나 40 년 된 알고리즘을 사용할 필요가 없으므로 최신 기술을 조사하고 싶을 수 있습니다.