2014-03-03 4 views
3

Naive Bayes 모델을 사용하여 문서를 양수 및 음수 레이블로 분류하고 있습니다. 72 개의 문서를 중심으로 작은 균형 데이터 세트 크기에서 제대로 작동하는 것 같습니다. 그러나 음수 라벨이 지정된 문서를 추가 할 때 분류 기준은 모든 것을 음수로 예측합니다.TextBlob을 사용한 Naive Bayes 텍스트 분류 : 더 많은 샘플 크기를 추가 할 때 모든 인스턴스가 음수로 예측됩니다.

나는 나의 데이터 세트를 80 % 훈련과 20 % 테스트 세트로 나눠야한다. 부정적인 레이블이 추가 된 문서를 추가하면 데이터 세트가 비뚤어집니다. 분급 기가 모든 테스트 문서를 부정적으로 예측하게하는 것은 왜곡 일 수 있습니까? Navive Bayes modle의 TextBlob/nltk 구현을 사용하고 있습니다.

아이디어가 있으십니까?

답변

4

예, 데이터 세트가 분류자를 바이어스 할 수 있습니다. 분류 자에게 어떤 클래스를 선택할지를 알려주는 신호가 아주 적다면 가장 널리 퍼진 클래스를 선택하는 것이 합리적입니다 (귀하의 경우 네거티브 임). 클래스 분포와 정확도를 플로팅하려 했습니까? 시도 할 또 다른 것은 k-fold validation이므로 우연히 편향된 80-20 훈련 테스트 분할을 그리지 않습니다.

+0

예. 다른 클래스 배포에 대해 5 회 실행했습니다. 마이너스 인스턴스가 내 훈련 데이터 세트에서 우세 할 때 잘못된 음성 예측이 증가하는 것을 목격했습니다. 감사. – user2161903