두 클래스 분류 문제를 가정 해 보겠습니다. 하나의 클래스는 95 % 이상의 레이블 데이터를 가지고 있고, 다른 클래스는 5 %의 레이블 데이터를 가지고 있습니다. 두 클래스는 매우 편향되어 있습니다.바이어스 된 데이터 세트에 대한 정밀도 및 리콜
다른 분류기를 평가하기 위해 클래스 유효성 검사를하고 있는데, 분류기가 다른 클래스의 예측 결과가 정확하지 않더라도 정확도/회수율에서 과반수 (95 %)의 레이블을 예측하는 경우 의도적으로 발견했습니다. 다른 클래스는 5 %의 레이블이 지정된 데이터 만 있기 때문에 구별하기가 어렵습니다.
다음은 사용중인 방법/측정 항목 (정밀도/리콜 사용)입니다. 마이너 5 % 클래스를 고려하여 평가할만한 다른 우수한 메트릭이나 메소드가 있다면 궁금합니다. 마이너 5 % 클래스에 가중치를 지정하지만, 여기서는 편향된 데이터 세트를 측정하는보다 체계적인 방법을 요청합니다.
scikit learn + python 사용 2.7.
scores = cross_validation.cross_val_score(bdt, X, Y, cv=10, scoring='recall_weighted')
print("Recall: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
scores = cross_validation.cross_val_score(bdt, X, Y, cv=10, scoring='precision_weighted')
print("Precision: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
왜 이런 종류의 질문을 계속 게시 하시겠습니까? 그들은 http://stats.stackexchange.com/ – Merlin
에 속해 있습니다. @Merlin, 저는'stats'에게 할 수 있습니다, 아이디어를 주셔서 감사합니다. 나는 여기에 더 많은 전문가를 느낀다. :)) –
이후, 당신은 그것을 얻지 않는 것 같습니다. 귀하의 질문은 비공개입니다. 링크를 참조하십시오. http://stackoverflow.com/help/on-topic – Merlin