0

불균형 데이터 세트에서 임의의 포리스트 모델을 실행하기 만하면됩니다. 나는 AUC와 혼돈 매트릭스를 얻었습니다. AUC는 나쁘지는 않았지만 실제로 모델은 모든 인스턴스를 양의 것으로 예측합니다. 어떻게 이런 일이 일어나고 AUC를 올바르게 사용하는가?이 경우 AUC 점수를 해석하는 방법은 무엇입니까?

enter image description here

로 아래의 ROC 곡선 :

enter image description here

+0

크로스 게시 : https://stackoverflow.com/q/41132399/781723, https://datascience.stackexchange.com/q/15725/8560. [여러 사이트에 동일한 질문을 게시하지 마십시오.] (https://meta.stackexchange.com/q/64068). 아무도 시간 낭비없이 응답 할 때 각 지역 사회는 솔직한 기회를 가져야합니다. –

답변

0
데이터가 한 방향 또는 작은 위양성률과 유사한의 다른 (일종의 기울어 진 경우이 문제가있을 수

희소 한 상태를위한 의학 테스트를 위해 참담한). AUC 요약 점수 대신 전체 수신기 작동 특성 곡선 (ROC 곡선)을 보는 것이 도움이 될 수 있습니다.

+0

'왜곡 된'데이터 불균형을 의미합니까? – LUSAQX

+0

아닙니다. 나는 의도적으로 모호한 문구를 사용했다. 왜냐하면 (a) 나는이 분야의 전문가가 아니기 때문에 나는 위험하다는 것을 충분히 알고있다. 그리고 (b) 내가 보지 못한 데이터에 대해서는 언급하기가 어렵다. ROC 곡선의 도표를 작성하여 게시 할 수 있다면 나 (또는 ​​다른 사람들)가이 문제를 해석하는 데 도움을 줄 수 있습니다. –