2013-08-01 10 views
2

250 종의 행동 특성을 수명 기록 전략으로 클러스터링하려고합니다. 특성 데이터는 수치 변수와 명목 변수로 구성됩니다. 나는 R과 클러스터 분석에 비교적 익숙하지 만,이 점들에 대한 거리를 찾는 최선의 선택은 데이지 기능 내에서 고어 (gower) 유사성 방법을 사용하는 것이라고 믿는다. 1) 그게 최선의 방법인가요?데이지 기능과 Gower를 사용하여 최적의 클러스터 수를 결정합니다. 유사성

이러한 거리가되면 중요한 클러스터를 찾고 싶습니다. 나는 pvclust를 들여다 보았고 클러스터의 힘을 나에게 줄 수있는 능력을 좋아한다. 그러나 이전에 데이지를 사용하여 거리 측정을 허용하도록 코드를 수정할 수 없었습니다. 나는 여기에 주어진 조언을 따르려고 애썼다. https://stats.stackexchange.com/questions/10347/making-a-heatmap-with-a-precomputed-distance-matrix-and-data-matrix-in-r/10349#10349 여기에서 얻은 코드를 사용하여 http://www.is.titech.ac.jp/~shimo/prog/pvclust/pvclust_unofficial_090824/pvclust.R

2) 나의 거리 측정을 받아들이 기 위해 기존 코드를 수정할 수있는 사람이 있습니까?

3) 아니면 중요한 클러스터의 수를 결정하는 더 좋은 방법이 있습니까?

귀하의 도움에 미리 감사드립니다.

답변

0

Zahn 알고리즘을 사용하여 클러스터를 찾을 수 있습니다. 기본적으로 최소 스패닝 트리이며 가장 긴 가장자리를 제거하는 기능입니다.

1

일부 의견 ...

약 1)

그것은 서로 다른 유형의 데이터를 처리 할 수있는 좋은 방법입니다.

또한 데이터 집합에 가능한 공칭 값만큼 새 행을 만들고 필요한 곳에 1/0을 넣을 수 있습니다. 예를 들어, "파충류", "포유 동물", "새"와 같은 3 개의 값이있는 경우, 4 열 (숫자, 숫자 (숫자, 숫자)을 나타내는 새 열의 경우 )의 2 열 파충류), 숫자 (포유류), 숫자 (새를 나타내는)) 인스턴스 (23.4, "포유류")는 (23.4,0,1,0)에 매핑됩니다.

이 맵핑을 사용하면 "정상적인"거리에서 작업 할 수 있습니다 (크거나 작은 값으로 인해 다른 열을 지배하지 않도록 데이터를 표준화해야합니다).

데이지 유형의 유사성의 요소를 반환 2)에 대해

, 클러스터 패키지에서 다른 클러스터링 알고리즘에서 사용할 수 있습니다 (어쩌면 당신은) 더 많은 물건을 구현할 필요가 없습니다. 예를 들어 pam 함수는 데이지에 의해 반환 된 객체를 직접 얻을 수 있습니다.

은 약 3)

클러스터는 정말 주관적이며, "중요한 클러스터는"정말 어떤 사람들이 사용 편안하지 않을 용어되지 않도록 대부분의 클러스터 알고리즘은 초기 조건에 따라 달라집니다. Pam은 명료 한 데이터에 대해 좋은 메도 이드를 사용하여 클러스터가 중심에 위치하기 때문에 유용합니다 (해석 가능하기 때문에). 예를 들어, K- 수단은 중력이 해석 할 수 없다는 단점이 있습니다 (1/2 파충류 1/2 포유류라는 것은 무엇을 의미합니까?). pam은 해석 목적에 적합한 인스턴스를 중심으로 클러스터를 만듭니다.

http://en.wikipedia.org/wiki/K-medoids

http://stat.ethz.ch/R-manual/R-devel/library/cluster/html/pam.html

: PAM 소개