나는 스팸 필터 마이닝 프로젝트를 진행하고 있으며 현재 NaiveBayesMultinomial 분류 기준을 사용하여 단어 발생 빈도를 계산하여 스팸이 아닌 것으로 분류합니다.NaiveBayesMultinomial에서 분류 임계 값을 변경하거나 Weka에서 수동으로 혼용 행렬을 계산하는 방법
것은 기본적으로 분류를위한 임계 값으로 WEKA를 설정합니다. 그러나 스팸이 아닌 스팸을 스팸으로 분류하는 것은 그 반대의 경우보다 많이 해를 끼치며 임계 값을 조정하고 혼동 행렬이 어떻게 변경되는지 확인하려고합니다.
나는 수천 개의 데이터를 가지고 있으며 알고리즘에서 임계 값을 변경할 수 있는지 여부를 알지 못합니다. 수동으로 작업해야한다면, WEKA가 제공 한 결과를 어떻게 사용하여 혼란을 측정 할 것인가?
미리 감사드립니다.
다음은 요약이며 도움이되는지 여부는 잘 모르겠습니다. 시험에 대한 평가 등급
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.998 0.035 0.978 0.998 0.988 0.998 ham
0.965 0.002 0.996 0.965 0.98 0.999 spam
가중 평균함으로써 개요를 Correctly Classified Instances 2715 98.4766 % Incorrectly Classified Instances 42 1.5234 % Kappa statistic 0.9679 Mean absolute error 0.0184 Root mean squared error 0.1136 Relative absolute error 3.8317 % Root relative squared error 23.2509 % Total Number of Instances 2757
상세한 정확성을 분할. 0.985 0.022 0.985 0.985 0.985 0.998
혼란 매트릭스
a b <-- classified as 1669 4 | a = ham 38 1046 | b = spam