R 및 임의의 포리스트 패키지를 범주 형 및 숫자 형 변수와 "원치 않는 coloumns"가 포함 된 데이터 집합으로 사용하려고합니다. 내 예측 변수로 포함시키지 않으려는 coloumns). 또한, 내 바람직한 변수 중 일부 (예측 변수로 사용되기로되어 있음)가 누락되었습니다. 어떻게 처리 할 수 있습니까?누락 된 값이 포함 된 범주 형, 숫자 형 및 "원하지 않는"변수가 섞여있는 임의 포리스트
1
A
답변
0
귀하의 데이터 세트가 이와 유사하다고 가정했습니다.
mydf <- data.frame(target = c(1:100),
param1 = c(rep("a",10), rep("b", 50),
rep("c", 20), rep("a",15), rep(NA, 5)),
param2 = runif(100,0,1),
param3 = c(runif(20,1,10),runif(50,20,30),rep(NA,10),
runif(10,0,5), runif(10,70,80)))
는 원하는 열을 사용합니다.
a. 수식에서 임의의 포리스트에서 사용할 열을 지정할 수 있습니다.
myrf <- randomForest(target ~ param1 + param2, mydf) # this excludes param3
b. 또는 원하는 열만 유지하여 데이터 집합의 하위 집합을 만들 수 있습니다. NA를 처리 할
mydf2 <- mydf[,c(target,param1,param2] myrf <- randomForest(target ~ ., mydf2)
는 값.
a. 당신은 그들을 대신 할 수도 있습니다.
b. 또는
rpart
과 같이 그들을 처리 할 수있는 다른 라이브러리를 사용할 수도 있습니다.
마지막으로이 스레드를 살펴 보시기 바랍니다.
위대한! 고맙습니다 –