2017-11-13 11 views
0

지출, 주문 빈도, 주문 범위 및 각 범주에서 구매 한 비율 (약 20 개 정도)을 기반으로 고객 그룹을 클러스터링하려고합니다.클러스터링 범주 고객 데이터 구매

아마 간단한 대답 일 것이지만 나는 % 카테고리 구매 열을 표준화 (평균을 빼고 sd로 나눕니다)해야하는지 알 수 없습니다. 내가 표준화하지 않으면 분산의 약 90 %를 4-5 주 구성 요소 (SVD 사용)에서 설명 할 수 있지만 각 열을 표준화 할 때 동일한 수의 주 구성 요소에 대해서만 약 40 % 만 얻습니다. 내 걱정은 각 열이 관련되어 있으므로 표준화를 통해 관계를 제거한다는 것입니다. 동시에 표준화하지 않으면 표준화 된 데이터의 다른 변수에 문제가 발생할 것이라는 우려가 있습니다.

다른 사람들이 이러한 방식으로 클러스터링을 시도해도 비슷한 문제가 발생한다고 생각하지만 상황을 이해하지 못하는 경우가있을 수 있습니다. 미리 설명해 주셔서 감사합니다!

크리스,

답변

0

백분율 규모는 잘 정의 된 범위와 좋은 특성을 가지고있다.

이러한 기능을 경험적으로 확장하면 대개 상황이 악화됩니다.