2012-01-23 2 views
1

알고리즘을 평가 중이며 인공 데이터를 사용하고 싶습니다.분류 데이터 용 인공 데이터 세트 생성기

this StackOverflow answer에서 볼 수 있듯이 알고리즘은 1 차원 인공 데이터 집합에 대해 잘 작동합니다.

두 개 이상의 차원과 특정 특성 (예 : 노이즈, 상관 관계)이있는 데이터 집합에 대한 알고리즘을 테스트하고 싶습니다. 누군가 이미 R에 '인공 데이터 세트 생성기'를 구현 했습니까?

모든 의견은 대단히 감사하겠습니다. 감사!

+0

당신은 당신이 원하는 특성을 가진 인공 데이터 세트를 생성 할 수 있습니다. 원하는 속성에 대해 더 구체적으로 설명하면 더 나은 답변을 얻을 수 있습니다. –

+1

당신은'MASS :: mvnorm'과 같은 것을 의미합니까? –

+0

@Roman 덕분에 그럴 것 같아요. – cs0815

답변

1

mlbenchpackage은 벤치마킹 목적에 따라 다양한 차원과 구조의 데이터를 생성하는 함수 모음입니다. 회귀 및 분류 데이터 세트를 모두 포함합니다.

물론 이러한 데이터 세트는 모두 인공적이므로 실제로 알고리즘이 의도하는 구조를 미러링하지 않을 수 있기 때문에 실제로 실제 성능을 반영하지 못할 수 있습니다. 그러나 적어도 시작할 수있는 곳입니다.

+0

고마워. 이것은 데이터 세트의 모음으로 보인다 (나는 UCI를 사용했다). 나는 알고리즘의 성능이 무너지기 시작하는 조건 (데이터 셋 속성)을 볼 수 있도록 생성기에 더 관심이있다. 인공 데이터 세트는 또한 '진리'(공식)가 알려지지 않은 기존 데이터 세트를 사용하여 불가능한 (IMHO) 캘리브레이션을 측정 할 수있게 해줍니다. 감사. – cs0815

+0

@csetzkorn 더 자세히 살펴보십시오. mlbench는 sd, 입방체의 중심과 같은 것을 제어하는 ​​매개 변수를 가진 _generator_ 함수를 포함합니다. 자, 내가 말했듯이, 누군가가 _else_가 원하는 방식으로 인공적인 데이터 세트를 생성하는 기능을 마술처럼 만들지는 않을 것입니다 . 그것이 당신이 원하는 것이라면, 스스로 코드를 작성해야합니다. – joran

+0

미안하지만 발전기 비트가 보이지 않습니다. 감사합니다 – cs0815

2

wakefield 패키지를 사용하면 임의의 데이터 세트를 생성 할 수 있습니다.

은 데이터 프레임, 시계열, 조정의 상관 관계를 쉽게 생성, 심지어 생성 된 시각화 데이터, 예컨대 :

if (!require("pacman")) install.packages("pacman") 
pacman::p_load_gh("trinker/wakefield") 
pacman::p_load(dplyr, tidyr, ggplot2) 

set.seed(10) 

r_data_frame(n=100, 
    id, 
    dob, 
    animal, 
    grade, grade, 
    death, 
    dummy, 
    grade_letter, 
    gender, 
    paragraph, 
    sentence 
) %>% 
    r_na() %>% 
    plot(palette = "Set1") 

enter image description here

+1

그 그림은 그것을 생성 한 실제 코드없이 도움이되지 않습니다. 관련 정보를 추가 하시길 권유합니다. 그렇지 않으면 매우 낮은 품질의 답변 큐로 들어갑니다. –

+0

이 처리합니다. 그러나 그것은 저자의 매뉴얼에서 코드를 복사하는 것을 의미합니다. – epo3