2013-05-12 3 views
0

이 규칙을 위반하면이 사이트와 새로운 클러스터 분석에 익숙하지 않으므로 사과합니다.클러스터 3.0의 계층 적 클러스터 분석

저는 클러스터 3.0을 사용하여 유클리드 거리와 평균 연결로 계층 적 클러스터 분석을 수행했습니다. Cluster 3.0은 노드와 유전자의 유사성 점수를 결합한 .gtr 파일을 출력합니다. .gtr 파일의 첫 번째 줄은 항상 다른 유전자와 유전자를 연결 한 다음 유사성 점수를 표시합니다. 그러나이 유사성 점수는 어떻게 재현합니까?

내 데이터 세트에서 8 개의 유전자가 있고 d_ {ij}가 유전자 i와 유전자 j 사이의 유클리드 거리를 포함하는 거리 행렬을 만듭니다. 그런 다음 각 요소를 행렬의 최대 값으로 나눠서 행렬을 정규화합니다. 유사도 행렬을 얻으려면 모든 요소를 ​​1에서 뺍니다. 그러나 결과는 연결 유형을 사용하지 않고 출력 유사성 점수와 다릅니다.

저는 링크가 첫 번째 노드의 유사성 (가장 가까운 두 유전자의 합류)과 유사성 점수 계산 방법에 주로 어떻게 영향을 미치는지 혼란 스럽습니다.

감사합니다.

+0

어떤 유사 기능이 클러스터 3.0을 사용하며, 사전에 데이터를 사전 처리 (규모 조정) 했습니까? –

답변

1

알고리즘은 클러스터을 데이터 포인트가 아닌 몇 가지 연결 방법을 사용하여 비교합니다. 그러나 알고리즘의 첫 번째 반복에서 각 데이터 포인트는 자체 클러스터를 형성합니다. 즉, 연결 방법이 실제로 데이터 포인트 간 거리를 측정하는 데 사용하는 측정 기준으로 축소됩니다 (유클리드 거리의 경우). 후속 반복의 경우 클러스터 간의 거리는 링크 방법에 따라 측정됩니다.이 경우 링크는 평균 링크입니다. 두 클러스터 B를 들어, 이것은 다음과 같이 계산된다 :

d(a,b)는 두 개의 데이터 지점 사이의 유클리드 거리가

enter link description here

. AB에 첫 번째 반복에서와 같이 데이터 포인트가 하나만 포함될 경우이 방정식은 d(a,b)으로 줄어 듭니다. 이 일이 좀 더 명확 해지기를 바랍니다. 그렇지 않다면, 정확히하고 싶은 것에 대한 자세한 내용을 제공해주십시오.