현재 ROC 곡선을 그릴 때 임의의 포리스트 분류 기준을 변경하려고합니다. 랜덤 포레스트에 대해 이렇게하는 유일한 방법은 class_weight 매개 변수를 사용하는 것입니다. 나는 이것을 성공적으로 수행 할 수 있었고 정밀도, 회수율, 진정한 양성률 및 위양성율을 높이거나 낮추었습니다. 그러나, 내가 실제로하고있는 것이 확실하지 않습니다. 현재 나는 다음과 같은 것을 가지고있다;Class_Weight in Random Forest Python
rfc = RandomForestClassifier(n_jobs=-1, oob_score=True, n_estimators=50,max_depth=40,min_samples_split=100,min_samples_leaf=80, class_weight={0:.4, 1:.9})
.4와 .9는 실제로 참조하는 부분이 무엇입니까? 나는 데이터 세트의 40 %가 0과 90 % 1이라고 생각했지만, 분명히 의미가 없습니다 (% 100 이상). 실제로 무엇을하고 있습니까? 감사!
당신이 말한 것은 완벽한 의미를 가지며 실제로 이해하게되었습니다. 그러나, 내 데이터 세트는 실제로 당신이 말한 것과는 정반대입니다. 따라서 70 % 0과 30 % 1이 더 중요합니다. 두 번째 설명의 반대 즉 9/4 시간이 오히려 0을 1로 잘못 분류하고 싶습니다. 나는 churn 예측을하고있다). 그러나 내가 위에 보여준 것을 해냈고 그것은 환상적인 결과를 낳습니다. 혹시 당신의 설명이 반대입니까? 즉 70 % 0과 30 % 1입니까? – Cameron