2014-10-11 1 views
0

Scikit에서 K Mean Clustering을하고 싶습니다. 필자는 9 가지 기능이 있지만 클러스터링에서 네 가지를 선택하기를 원합니다. 네 가지 클러스터링 각각을 다른 메트릭으로 측정 했으므로 클러스터링 할 각 네 가지 기능을 표준화하고 싶습니다. 그러나 각 클러스터 지점이있는 원래 형식으로 각 데이터를 나열하고 싶습니다. 어떻게해야합니까?기능 선택 및 Scikit에서 K 평균을 사용하여 기능 복원

답변

2

언제든지 원본 데이터 포인트를 사용할 수 있습니다.

원본 데이터의 중심을 다시 계산하거나 역 정규화를 적용하십시오 (z- 정규화는 되돌릴 수 있습니다!). 하지만 사용한 4 가지 속성에 대한 데이터 만 가져옵니다.

원본 데이터의 중심선을 다시 계산하는 것은 간단하며 다른 속성에 대한 정보도 얻을 수 있습니다 (평균을 계산할 수 있고 예를 들어 범주 형은 아니지만 다음을 참조 할 수 있습니다. 모드 대신)

+0

preprocessing.scale()을 사용하는 경우 확장 된 데이터를 원래 데이터로 되돌리려면 어떻게해야합니까? – IllSc

+1

나는 scipy를 많이 사용하지 않으므로 코드를 줄 수는 없습니다. 그러나 당신은 * 편의 함수 *'scale' 대신'sklearn.preprocessing.StandardScaler'의 * 전체 API *를보고 싶을지도 모릅니다. 문서로부터'inverse_transform' 메소드가 있습니다. –