Naive Bayes 모델을 사용하여 문서를 양수 및 음수 레이블로 분류하고 있습니다. 72 개의 문서를 중심으로 작은 균형 데이터 세트 크기에서 제대로 작동하는 것 같습니다. 그러나 음수 라벨이 지정된 문서를 추가 할 때 분류 기준은 모든 것을 음수로 예측합니다.TextBlob을 사용한 Naive Bayes 텍스트 분류 : 더 많은 샘플 크기를 추가 할 때 모든 인스턴스가 음수로 예측됩니다.
나는 나의 데이터 세트를 80 % 훈련과 20 % 테스트 세트로 나눠야한다. 부정적인 레이블이 추가 된 문서를 추가하면 데이터 세트가 비뚤어집니다. 분급 기가 모든 테스트 문서를 부정적으로 예측하게하는 것은 왜곡 일 수 있습니까? Navive Bayes modle의 TextBlob/nltk 구현을 사용하고 있습니다.
아이디어가 있으십니까?
예. 다른 클래스 배포에 대해 5 회 실행했습니다. 마이너스 인스턴스가 내 훈련 데이터 세트에서 우세 할 때 잘못된 음성 예측이 증가하는 것을 목격했습니다. 감사. – user2161903