2011-12-20 5 views
2

고객 지원에 대한 나의 정서 분석에 Naive Bayes 분류자를 사용하고 있습니다. 하지만 유감스럽게도 고객 지원 도메인에 커다란 주석이 달린 데이터 세트가 없습니다. 하지만 동일한 도메인에 주석이 달린 데이터가 거의 없습니다 (약 100 개의 긍정 및 100 개의 부정적인 데이터). 아마존 제품 리뷰 데이터도 설정했습니다.Apache Mahout의 가중 Naive Bayes 분류 자 ​​

어쨌든 mahout을 사용하여 가중 된 순진 베이즈 분류기를 구현할 수 있습니다. 아마존 제품 검토 데이터에 작은 고객 지원 데이터와 작은 가중치를 부여 할 수 있습니다. 위의 가중치가 적용된 데이터 세트에 대한 교육을 수행하면 정확도가 크게 향상됩니다. 친절하게 도와주세요.

답변

1

정말 간단한 방법은 오버 샘플링입니다. 즉, 교육 데이터에서 여러 번 고객 지원 사례를 반복하십시오.

같은 문제는 아니지만 클래스 불균형에 사용 된 접근 방식을 살펴보면 더 많은 아이디어를 얻을 수 있습니다. 특히 오버 샘플링 (언급 한 바와 같이)과 언더 샘플링.

+0

나는 비슷한 것을 시도하고있다. 작은 훈련 데이터를 사용하여 샘플 데이터 세트를 분류하고 무작위로 교차 검사 한 다음 교육 세트에 추가하십시오. – Greenhorn