I는 다음과 같은 데이터를 클러스터 분석 (샘플)을 수행 할 :클러스터링 이진 데이터
ID CODE1 CODE2 CODE3 CODE4 CODE5 CODE6
------------------------------------------------------------------
00001 0 1 1 0 0 0
00002 1 0 0 0 1 1
00003 0 1 0 1 1 1
00004 1 1 1 0 1 0
...
1은 사람이 코드의 존재를 나타낸다
, 0 부재를 .. 는 K-수단되거나 이러한 종류의 데이터 (약 백만 개의 고유 ID)에 대한 코드를 클러스터링하는 데 가장 적합한 계층 적 클러스터링 및 거리 측정은 무엇입니까? 이 두 가지 방법 모두 적절하지 않은 경우 가장 적절하다고 생각되는 것은 무엇입니까?
감사합니다.