2013-07-05 3 views
3

임의의 포리스트를 사용하여 예측을 수행하는 모든 예는 이미 실제 답변을 가지고 있습니다 (즉, 테스트 세트에 레이블이 있음). 그 칼럼이 없을 때 당신은 무엇을합니까?임의의 포리스트 : 테스트 세트에도 레이블이 지정되어 있으면 차이가 있습니까?

예를 들어

는,이 튜토리얼은 홍채 데이터 사용 : 당신이없이이를 실행하려고하면 우리가 진짜이 일을한다면 http://mkseo.pe.kr/stats/?p=220

를 테스트 데이터 집합 열 [1,4] 열이 아닌 5 것 열 5는 데이터 프레임이 동일한 크기가 아니라는 오류를 발생시킵니다. 분명히 그렇지 않습니다.

아직 답변 열이 없으면 어떻게 예측 하시겠습니까?

편집 위의 링크에서 발췌를 사용 대한 설명 :

훈련 및 테스트 세트를 준비합니다.

test = iris[ c(1:10, 51:60, 101:110), ] 
train = iris[ c(11:50, 61:100, 111:150), ] 

테스트 데이터 프레임에는 완전한 종 열이 있습니다. 저는 훈련 세트에서 성장한 숲을 기반으로 종을 예측하려고합니다. 그래서에서 나는 위치를 실행 한 후입니다 :

test <- test[-5] 

내가 나간 식물 측정의 무리를 수집 기반으로 종을 알고 싶어 더라면 나는 위치 나에있을 거라고 지금이야 내 훈련 데이터에서 자란 나무 모델. 그렇다면 테스트 데이터 프레임의 나머지 데이터와 교육 데이터 프레임을 사용하여 성장한 포리스트를 기반으로 방금 삭제 한 Species 열을 어떻게 예측할 수 있습니까? 당신이 인용 튜토리얼이 test 세트의 Species 열을 가지고 있지만 당신이 짐작으로

+1

임의의 숲 * 감독 학습의 범주에 떨어지는 너 한테 분류입니다 *. 당신은 "클러스터링"이 떠오르는 * 감독되지 않는 학습 *을 찾고 있습니다. – flodel

+1

솔직히, 나는 아니에요! 나는 그 사람이 튜토리얼에서 정확히 무엇을 얻고, 훈련 세트에서 임의의 포레스트를 성장시킨 다음 테스트 세트를 예측하려고합니다. 그러나 명백한 이유 때문에 필자는 테스트 세트에 이미 예측 된 값의 열을 가지고 있지 않습니다. 나는 숲을 잘 자라게 할 수있다, 나는 단지 예측을 만드는 방법을 해결할 수 없다. –

+0

아 ... 미안해. 오해. – flodel

답변

9

,이 predict 기능에 의해 필요하지 않습니다 :

library(randomForest) 
test <- iris[ c(1:10, 51:60, 101:110), -5] # removed the Species column here. 
train <- iris[ c(11:50, 61:100, 111:150), ] 
r <- randomForest(Species ~., data=train, importance=TRUE, do.trace=100) 
predict(r, test) 
+0

나는 어딘가에서 오타가 떠돌 았음에 틀림 없었다. 나는 어제 몇 시간 동안이 작업을하고 있었고 지금은 코드로 괜찮습니다. 차이를 볼 수 없습니다! 고맙습니다. –