2016-10-31 25 views
-1

수동으로 지정하지 않고 생성되는 클러스터 수를 R로 결정할 수 있습니까?클러스터 수 지정 R

문자열 값에서 '문자'를 일부 추출한 후, 30000 개의 고유 값을 가진 변수를 클러스터로 변환하여 어떤 값을 동일하게 처리해야하는지 결정했습니다. 이 값이 아마 동일하지만 요소는 하나의 거리 인와 30000 X 30000 매트릭스를 생산

1로

Emilia Clarke 
Emilia Clark e 

은 분류되어야 공간, 예를 들어 문장 등이 상이하기 때문에 단어를 다른 것으로.

Kindly see the result dendogram

#Get all letters from a string 
> extract_letters <- lapply(str_split(data01,""),function(x) names(table(x))) 
#Get the distance of . I produced a 30000x30000 matrix 
> compute_dist <- adist(extract_letters) 
#Cluster 
> hc <- hclust(as.dist(compute_dist)) 
#Plot via dendogram 
> plot(hc) 
아래 코드는 내가 작은 데이터를 사용하고있는 하나입니다,하지만,이 때문에 많은 수의에 내가 줄거리를 검사하지 수 있기 때문에 이미 여기에 적용되지 않습니다 입력. 내가 클러스터의 수에 아이디어가 생성되지있어
> rect.hclust(hc,k=7) 

을 출력 됨 얼마나 많은 클러스터 지저분한 dendograms 그래서 나는 감지 할 수 없습니다. 내가 클러스터의 수를 결정하기 위해 도입 된 매개 변수 K

cutree(hc, k = 7) 
+1

또는 예측. 그런 다음 클러스터링은 모델의 일부로 간주 될 수 있으며 (교차) 유효성 검증을 기반으로 클러스터 수를 최적화 할 수 있습니다. – Roland

+0

@Roland, 나는 동일한 값을 분류하기 위해이 작업을 수행하고 있습니다. – icychamp

+0

나는 그것을 이해하지만 궁극적 인 목표는 아닙니다. 왜 그들은 분류해야합니까? 분류가 잘되는지 어떻게 확인합니까? – Roland

답변

0

에게 지수의 많은 지정해야하기 때문에 내가 cutree을 할 수있는 방법이 없습니다 그래서 hclust 자체의 출력에 의존하고 있습니다. 가장 일반적인 방법 색인은 갭 인덱스, CH 인덱스, DB 인덱스, 실루엣 인덱스입니다.
이러한 인덱스의 대부분은 클러스터 간 변동을 최소화하면서 클러스터 간 변동을 최대화하려고 시도하고 있습니다. R NbClust 패키지

는 method.You가 NbClust 패키지에 대한 자세한 내용을보실 수 있습니다 클러스터링 계층 및 K-수단에 대한 클러스터의 수를 결정하는 30 인덱스를 소개 당신이 추론에 대한 몇 가지 모델을 사용하는이 일을한다고 가정 https://cran.r-project.org/web/packages/NbClust/NbClust.pdf