2013-08-21 1 views
0

몇 가지 의견이 있으며이를 긍정적 또는 부정적으로 분류하고 싶습니다. 지금까지 주석이 달린 데이터 세트가 있습니다.동일한 테스트 세트

처음 100 행은 양수로 나머지는 100 음수로 분류됩니다.

SQL Server Analysis-2008 R2를 사용하고 있습니다. Class 속성에는 POS-positive 및 NEG-for의 두 값이 있습니다.

또한 최대 입력/출력 특성이 0 인 Naive Bayes 알고리즘 (모든 특성을 사용하고 싶음)을 분류에 사용하면 테스트 세트 최대 사례가 30 %로 설정됩니다. 리프트 차트의 현재 점수는 0.60입니다.

더 나은 분류 정확도를 얻으려면 필자는 2 POS와 1 NEG를 섞어야합니까?

답변

0

학습 인스턴스의 순서는 분류 성능에 영향을 미치지 않아야합니다. Naive Bayes가 계산 한 확률은 데이터 집합의 모든 인스턴스 순서와 동일합니다.

그러나 다른 테스트 및 학습 세트를 선택하면 분류 성능에 영향을 줄 수 있습니다. 예를 들어, 어떤 인스턴스는 본질적으로 다른 것들보다 분류하기가 더 어려울 수 있습니다.

마찬가지로 교육 및 테스트 성능이 좋지 않습니까? 교육 성과가 시험 성과보다 우수하거나 훨씬 우수하면 모델이 과도하게 적합 할 수 있습니다. 그렇지 않으면 교육 실적이 좋지 않은 경우 다음과 같이 제안합니다 (a) SVM, 의사 결정 트리 등 더 나은/강력한/더 표현력있는 분류 기준을 사용하는 것이 좋습니다. 및/또는 (b) 귀하의 기능이 데이터의 표현력/​​표현력이 충분한 지 확인하십시오.

+0

데이터를 더 잘 나타내는 기능을 알고리즘이 자동으로 선택하도록 허용했으며 점수는 0.77입니다. 나는 특성이 많을수록 좋다고 생각했습니다. – BinariOS

+0

더 많은 특성이 항상 좋은 것은 아닙니다. 당연히 너무 많은 속성이 문제를 더 어렵게 만들 수있는 트레이드 오프 (예 : 더 큰 검색 공간)가 있는데, 특히 유용하지 않은 것이 많지만 너무 적 으면 데이터를 제대로 표현할 수없는 경우가 있습니다. – user2683129