2017-03-04 3 views
-1

내 데이터 집합에 300k 행이 있습니다. 70/30 분할을 수행하고 결과가 괜찮은 모델 인 것 같습니다. 사실 양성, 거짓 - 부정, 양수 및 음수.왜 분류 된 레이블이 거의 없습니까?

TP는 FN은 FP가 3 2 인, 20 및 TN은 매우 낮은 있다고 41

입니까? 그래서 결과는 훌륭합니다. 그러나 모델이 단지 90 000의 66을 분류 할 수 있다면 오히려 쓸모가 없습니다.

개선하기 위해 수행 할 수있는 작업은 무엇입니까? 두 클래스 부스트 된 의사 결정 트리 또는 신경망은 그만큼 결과를 변경하지 않습니다. 어떤 추천?

+0

이진 분류입니까? 실험 링크를 여기에서 공유 할 수 있습니까? –

답변

0

데이터 세트에 누락 된 값이 있는지 확인할 수 있습니까?