2011-01-18 4 views
6

현재 클러스터 분석을 위해 특이점이있는 정사각형, 원형, 사각형 등과 같이 다른 모양의 데이터 집합을 생성하는 도구를 찾고 있습니다.이상치가있는 여러 모양 (예 : 사각형, 원, 직사각형)의 이발 데이터를 생성하는 방법은 무엇입니까?

클러스터 분석을 위해 좋은 데이터 세트 생성기를 권장 할 수 있습니까? R과 같은 언어로 이러한 데이터 집합을 생성 할 여지가 있습니까?

답변

6

모양을 만들고 경계 좌표를 추출합니다. splancs 패키지를 사용하여 임의의 점으로 모양을 채울 수 있습니다.

여기 내 프로그램 중 하나에서 작은 조각이다 :

# First we create a circle, into which uniform random points will be generated (kudos to Barry Rowlingson, r-sig-geo). 
circle <- function(x = x, y = y, r = radius, n = n.faces){ 
    t <- seq(from = 0, to = 2 * pi, length = n + 1)[-1] 
    t <- cbind(x = x + r * sin(t), y = y+ r * cos(t)) 
    t <- rbind(t, t[1,]) 
    return(t) 
} 

csr(circle(0, 0, 100, 30), 1000) 

alt text

가 이상 값을 추가하시기 바랍니다. 이 문제를 해결하기위한 한 가지 방법은 다양한 모양을 샘플링하고 서로 다른 방식으로 결합하는 것입니다.

+0

가 대단히 :-) 감사)) :-) 많은 도움이 : 위키에 문서

있다 – Pradeep

6

mlbench 패키지, 특히 mlbench.* 함수에서 생성하는 합성 데이터 세트를 살펴보아야합니다. 아래의 몇 가지 예를 참조하십시오.

enter image description here

다른 데이터 세트 또는 유틸리티 기능은 아마도 가장 크랑에 Cluster 작업보기에서 찾을 수 있습니다. @Roman이 말했듯이 이상 치를 추가하는 것은 특히 2 차원에서만 작업 할 때 특히 어렵지 않습니다.