2013-04-17 5 views
-1

내 데이터 (kmeans 또는 hclust)를 R 언어 (코딩)로 클러스터링하려고합니다. 내 데이터는 서수입니다. 이는 데이터가 Likert 척도로 1에서 5로 확장 된 비용 상승 (41 원인 "변수"가 있음)을 측정한다는 것을 의미합니다. 1은 5 대 효과에 영향을 미치지 않습니다 (약 160 관측 "원인 순위") ... 관측을 기반으로 41 원인을 클러스터하는 방법에 대한 도움 ... 클러스터링이나 도움이되는 모든 것 전에 비율을 비율 또는 z 점수로 변환해야합니까? .. 정말 너의 도움이 필요해 !! 여기에 놀아야 할 데이터가 있습니다. https://docs.google.com/spreadsheet/ccc?key=0AlrR2eXjV8nXdGtLdlYzVk01cE96Rzg2NzRpbEZjUFE&usp=sharing클러스터 서수 데이터

관측에서 유사성의 관점에서 변수 (열)를 클러스터하고 싶습니다 ... statmethods.net/advstats/cluster.html의 코드를 따르겠습니다. 관찰 결과의 유사성 측면에서 변수 (열)를 클러스터링 할 수 없었고 mattpeeples.net/kmeans.html#help에서 작업을 수행했습니다. 그러나 나는 그가 데이터를 백분율로 변환 한 다음 Z- 점수를 표준화하는 이유를 알지 못합니다.

+1

당신은 질문을 어디에해야하는지 결정하기 전에 질문을 분명히해야합니다. 통계적 질문 인 경우 교차 검증을 수행해야합니다. 코딩 질문 인 경우 여기에서 질문해야하지만 귀하의 코드 작성에 대해서는 의문의 여지가 없습니다. – lokheart

답변

3

변수의 유사성 관점에서 행 (관측)을 클러스터링하거나 관측치의 유사성과 관련하여 변수 (열)를 클러스터링하려는 경우 명확하지 않습니다.

어쨌든 패키지 cluster을 참조하십시오. 이 패키지는 모든 R 설치와 함께 제공되는 권장 패키지입니다.

서수 데이터로 수행 된 작업에 대한 자세한 내용은 ?daisy을 참조하십시오. 이 메트릭은 agnes (계층 적 클러스터링의 경우) 또는 pam (약품에 대한 분할의 경우 k의보다 강력한 버전)과 같은 기능에서 사용할 수 있습니다.

기본적으로 이들은 행/관측치를 클러스터링합니다. 열 (변수)을 클러스터하려면 을 사용하여 데이터 오브젝트를 단순히 조 변경하십시오. 데이터를 저장 한 방법에 따라 데이터가 엉망이 될 수도 있습니다. 비율로 데이터를 변환

+0

귀하의 의견을 보내 주셔서 감사합니다 ... 나는 관찰에서 발생의 유사성 측면에서 변수 (열)를 클러스터하고 싶습니다 ... 하지만 관측의 유사성과 관련하여 변수 (열)를 클러스터링 할 수 없었으며 에서 작업을 수행했지만 그렇지 않습니다. 왜 데이터를 백분율로 변환 한 다음 Z- 점수를 표준화하는지 ... – user2288739

0

때문에 모든 변수는 0의 범위에있는 데이터의 정상화라고 - 데이터가 당신은 큰 값으로 치수쪽으로 편견의 위험이 표준화되어 있지 않은 경우 1.