R에서 randomForest 패키지를 사용하여 불균형 데이터를 모델링했습니다. 결과는 상대적 빈도 (2249 (88 %), 318 (12 %))를 갖는 결과 (아니오, 예)를 갖는 2 진 변수입니다.randomForestSRC 샘플링 스키마
불균형 때문에 RF는 처음에는 OOB 오류율이 0 %이고 예는 OOB 오류율이 100 % 인 것으로 예측했습니다. 나는 다음과 같은 코드를 사용하여 가능한 모든 318 개의 결과와 314 개의 임의의 결과를 무작위로 추출하여 RF의 샘플링 디자인을 변경했습니다. OOB 오류율은 아니오의 합리적인 44 %와 예의 12 %로 변경되었습니다.
rf1 <- randomForest(binary.outcome ~ ., data = data,
strata = data$binary.outcome,
sampsize = c(318,318), replace = TRUE, importance = TRUE,
proximity = TRUE, mtry = 8, ntree = 2000)
누구나이 샘플링 디자인을 반복하는 방법을 알고 있지만 randomForestSRC를 알고 있습니까?
내가
rfsrc.1 <- rfsrc(binary.outcome ~ ., data = data,
bootstrap = "by.user", samptype = "swor",
samp = c(318,318), replace = TRUE, importance = "permute",
proximity = TRUE, mtry = 8, ntree = 2000)
내가 오류 메시지를 얻을 크랑의 PDF 사양에서 밖으로 작동하는 데 문제가 있어요 "의 적용 (SAMP, 2, 합계) : (x는) 긍정적 인 길이를 가지고 있어야 어두워"
내가 원하는 것을 얻기 위해 samp와 bootstrap을 조작하는 방법을 알아낼 수 없습니다.
는
감사합니다. Udaya - 내 질문에 대한 답변입니다. 또한 특정 하위 그룹이있는 다른 상황으로도 일반화됩니다. – user2888990