몇 가지 의견이 있으며이를 긍정적 또는 부정적으로 분류하고 싶습니다. 지금까지 주석이 달린 데이터 세트가 있습니다.동일한 테스트 세트
처음 100 행은 양수로 나머지는 100 음수로 분류됩니다.
SQL Server Analysis-2008 R2를 사용하고 있습니다. Class 속성에는 POS-positive 및 NEG-for의 두 값이 있습니다.
또한 최대 입력/출력 특성이 0 인 Naive Bayes 알고리즘 (모든 특성을 사용하고 싶음)을 분류에 사용하면 테스트 세트 최대 사례가 30 %로 설정됩니다. 리프트 차트의 현재 점수는 0.60입니다.
더 나은 분류 정확도를 얻으려면 필자는 2 POS와 1 NEG를 섞어야합니까?
데이터를 더 잘 나타내는 기능을 알고리즘이 자동으로 선택하도록 허용했으며 점수는 0.77입니다. 나는 특성이 많을수록 좋다고 생각했습니다. – BinariOS
더 많은 특성이 항상 좋은 것은 아닙니다. 당연히 너무 많은 속성이 문제를 더 어렵게 만들 수있는 트레이드 오프 (예 : 더 큰 검색 공간)가 있는데, 특히 유용하지 않은 것이 많지만 너무 적 으면 데이터를 제대로 표현할 수없는 경우가 있습니다. – user2683129