거대한 데이터 세트를 클러스터링하는 데 몇 개의 변수를 사용해야합니까?

저는 같은 응답자 44 명을 대상으로 장기 설문 조사를 실시했습니다 (많지는 않지만 더 잘할 수 없습니다).거대한 데이터 세트를 클러스터링하는 데 몇 개의 변수를 사용해야합니까?

2 단계 분석을 사용하여 SPSS에서 샘플을 클러스터해야하지만 실제로 많은 변수가 있습니다. 6 가지 설문 조사 설문지가 실시되었으므로 정 성적 질문은 물론 200 가지 정량적 질문 (변수)이 있습니다.

첫 번째 질문은 : 클러스터 분석을 수행하기 위해 모든 정량 변수를 사용해야합니까? 필자가 읽은 모든 매뉴얼은 클러스터링 솔루션의 일부 변수를 선택합니다.

두 번째 문제

내가 모든 정량적 데이터를 계층 적 클러스터링을 사용하려고한다는 것입니다 만, SPSS는 것을 통보 : 클러스터 분석을 수행 할 수

경고

충분하지 유효한 경우.

... 이는 내가 가지고있는 데이터 세트가 클러스터 분석을 수행하는 데 사용될 수 없음을 의미합니다.이 경우 클러스터 분석을 수행하려면 어떻게해야합니까?

2016-11-15 Sundqvist

질문 1, 당신은 200 개 변수를 가지고 있지만

이 특정 변수 사이에 강한 상관 관계가있을 수 있습니다. 따라서 클러스터 분석을 수행하기 위해 서로 덜 관련있는 변수를 사용하는 것이 좋습니다.

주체 구성 요소 분석과 같은 감독되지 않은 방법을 사용하여 데이터 집합의 차원을 줄이고 낮은 상관 공간으로 변환 할 수 있습니다. 이것은 오히려 문제가 소리 http://www-01.ibm.com/support/docview.wss?uid=swg21481097

2016-11-15 14:02:28

링크를

질문 2,

, 당신의 SPSS의 오류에 대한 좋은 설명을 제공합니다. 변수가 아주 많습니다. 얼마나 많은 경우를 말하지 않았지만 44 x 6 인 것처럼 들립니다. 이것은 좋은 조합이 아닙니다. 클러스터링 연습의 목적은 무엇입니까?

클러스터링에 사용할 정량 변수에서 몇 가지 주요 구성 요소를 추출하고 소수의 다른 변수를 추가하는 것이 좋습니다. 계층 적 클러스터링 절차의 메시지는 경고입니다.

2016-11-15 14:16:29 JKP

답변