2016-08-29 5 views
-2

내 작업은 X 데이터 집합의 열에 위치한 어떤 기능이 대상 변수 y를 예측하는 데 가장 적합한지를 이해하는 것입니다. RandomForestClassifier에서 feature_importances_를 사용하기로 결정했습니다. RandomForestClassifier는 max_depth = 10 및 n_estimators = 50 일 때 최상의 점수 (aucroc)를가집니다. 최상의 매개 변수 또는 기본 매개 변수와 함께 feature_importances_를 사용하는 것이 맞습니까? 왜? feature_importances_는 어떻게 작동합니까?Scickit에서 Feature_importances 알아보기, 올바른 매개 변수를 선택하는 방법은 무엇입니까?

예를 들어 가장 좋은 매개 변수와 기본 매개 변수가있는 모델이 있습니다.

1)

model = RandomForestClassifier(max_depth=10,n_estimators = 50) 
model.fit(X, y) 
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"]) 

2)

model = RandomForestClassifier() 
model.fit(X, y) 
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"]) 
+1

피쳐 수를 사용하지 않습니다. 이는 각 기능이 예측에 얼마나 유익한지를 추정하는 것입니다. – cel

+0

@cel이 말했듯이'feature_importances_'는 각 열의 중요도에 점수를 매 깁니다. 그게 다야. 또한, 당신은 단지 scikits- 학습 문서라면 [here] (http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html)에서 당신이 어떻게 *'* feature_importances_'를 읽을 수 있는지에 대한 데모를 발견 할 것입니다. –

답변

-1

나는 당신이 사용하고자하는 모델입니다, 당신은 최고의 매개 변수와 함께 feature_importances_ 사용한다고 생각합니다. 특별 대우를받을만한 기본 매개 변수에 특별한 것은 없습니다. feature_importances_는 어떻게 작동합니까? 여기 scikit-learn 작성자의 답변을 참조 할 수 있습니다. How are feature_importances in RandomForestClassifier determined?