2014-06-11 2 views
2

내가 임의 숲 (RF)를 실행 한 후 R.임의 숲의 중요성 - 플롯과 데이터 프레임에서 다른 %의 IncMSE가

사용할 임의의 숲 패키지에 내장 된 중요한 기능을 이해하는 도움이 필요, 중요성에 액세스 할 수 있습니다 rf $ 중요성. 반환 된 데이터 프레임에는 % IncMSE 및 IncNodePurity의 두 필드가 포함됩니다.

무작위 포리스트 패키지에 내장 된 varImpPlot() 함수를 사용하여 둘 다 플로트 할 수 있습니다. 그러나, 표시된 % IncMSE 값은 앞서 언급 한 방법으로 액세스 한 결과 (rf $ 중요도)와 일치하지 않습니다.

나를 예에 문제를 설명하자 : 최대 %의 IncMSE 값이 9.91 (DISP)를

data(mtcars) 
rf<-randomForest(mpg~ .,data=mtcars,importance=T,mtry=3) 
rf$importance 
varImpPlot(rf) 

이지만, 플롯의 최대 값은 주변의 음모 14. 다른 모든 값 및 액세스입니다 rf $ 중요도와도 다릅니다. (IncNodePurity에는 차이가 없음).

누군가 설명 할 수 있습니까? 올바른 값은 무엇입니까?

+0

모델 객체의 구성 요소 인 'importanceSD'도 있습니다. 스케일 된 값을 플롯하는 중입니다 ... 실제로 varImpPlot에 'scale'인수가 있습니다. – joran

+0

@ an란 : 답변으로 게시해야합니다. 질문자가 도움말 페이지를 읽었으며 적용 할 "정확성"의 표준을 정의 했어야하지만 부정적인 피드백을 전달하려는 경우에도 여전히 그렇게 할 수 있지만 의견은 충분한 답변으로 보입니다. –

답변

2

내 의견에 언급했듯이 동일하지 않은 이유는 varImpPlot이 임의의 포리스트 개체의 importanceSD 구성 요소를 사용하여 크기 조정 된 값을 플로팅하기 때문입니다. 이 값은 varImpPlot에 대한 scale 인수를 사용하여 제어 할 수 있습니다.