클러스터링 할 일련의 범주 형 변수가 있으므로 github package에서 가져온 k 모드를 사용하고 있습니다. 각 관측치 (점)의 거리를 그것이 속한 클러스터의 중심으로 가져 가고 싶습니다.K 모드는 각 점과 클러스터 중심 사이의 거리를 계산합니다.
이것은 내가 지금까지 구현 한 것입니다 : 변수가 범주 형이기 때문에 나는 Eucledean 거리를 사용할 수 없습니다
kmodes_cao = kmodes.KModes(n_clusters=6, init='Cao', verbose=1)
kmodes_cao.fit_predict(data)
# Print cluster centroids of the trained model.
print('k-modes (Cao) centroids:')
print(kmodes_cao.cluster_centroids_)
# Print training statistics
print('Final training cost: {}'.format(kmodes_cao.cost_))
print('Training iterations: {}'.format(kmodes_cao.n_iter_))
. 클러스터 중심에 대한 각 점의 거리를 계산하는 이상적인 방법은 무엇입니까?
봐 도움이 될 것입니다 바이너리 거리 홉 'KModes' 함수. 바퀴를 재발 명하지 마십시오. –
나는 그것을 조사했지만 거리 계산 방법을 찾을 수 없었다. 나는 데이터 마이닝을 처음 사용하므로 안내 할 수 있습니까? –
문서의 'cat_dissim'매개 변수에도 있습니다. –