2016-11-14 7 views
1

R에서 randomforestSRC 패키지를 사용하여 Survival Forest를 만들었습니다. 훈련 및 테스팅 데이터 세트가 있습니다. 교육 데이터 세트를 사용하여 나무가 자라고 (랜덤 포레스트) 테스트 세트를 사용하여 예측이 이루어집니다.RandomForestSRC 패키지를 사용하여 생존 분석의 정확도를 찾는 방법 R

예측 된 생존 출력의 정확성을 얻고 싶습니다. 예상 출력에서 ​​오류율 매개 변수를 얻을 수 있습니다. 그러나 모델의 정확성인지 또는 정확도를 계산해야하는지는 알 수 없습니다.

내가 검색했을 때 정상 임의 포리스트의 정확도는 혼란 행렬을 사용하여 계산할 수 있음을 알 수있었습니다. 그러나 생존 산출을위한 정확도를 계산하는 방법을 모르겠습니다.

RandomForest 생존 모델의 정확도를 계산하는 방법을 알려주십시오.

답변

0

RandomForest에서는 OOB 오류를 계산할 때와 같이 학습 및 테스트 데이터로 나눌 필요가 없습니다. 아웃 오브 가방 (OOB) 오류 추정 임의 숲에서,이 -

OOB Error explained - Quora

How OOB Estimation Works - Breiman*

OOB Explained quite well - ETH

[레오 브레이 만하고 아델 커틀러 도움이 될해야 몇 가지 링크를 게시 교차 검증이나 별도의 테스트 세트가 필요 없기 때문에 테스트 세트 오류에 대한 불편한 추정치를 얻을 수 있습니다. 실행 중에는 다음과 같이 내부적으로 계산됩니다.

각 트리는 원래 데이터와 다른 부트 스트랩 샘플을 사용하여 구성됩니다. 이 경우의 약 1/3은 부트 스트랩 샘플에서 제외되고 k 번째 트리를 구성하는 데 사용되지 않습니다.

kth 트리의 구조에서 각 사례를 제외하고 k 번째 트리를 분류하여 분류하십시오. 이러한 방식으로, 시험 세트 분류가 나무의 약 1/3에서 각각의 경우에 대해 얻어진다. 달리기가 끝날 때마다 j가 n이 oob 일 때마다 대부분의 표를 얻은 클래스가되도록하십시오. j가 모든 경우에 걸쳐 평균 된 n의 실제 클래스와 동일하지 않은 시간의 비율은 oob 오류 추정값입니다. 이것은 많은 테스트에서 편향되지 않은 것으로 입증되었습니다.] 4