2014-04-09 3 views
0

나는 스팸 필터 마이닝 프로젝트를 진행하고 있으며 현재 NaiveBayesMultinomial 분류 기준을 사용하여 단어 발생 빈도를 계산하여 스팸이 아닌 것으로 분류합니다.NaiveBayesMultinomial에서 분류 임계 값을 변경하거나 Weka에서 수동으로 혼용 행렬을 계산하는 방법

것은 기본적으로 분류를위한 임계 값으로 WEKA를 설정합니다. 그러나 스팸이 아닌 스팸을 스팸으로 분류하는 것은 그 반대의 경우보다 많이 해를 끼치며 임계 값을 조정하고 혼동 행렬이 어떻게 변경되는지 확인하려고합니다.

나는 수천 개의 데이터를 가지고 있으며 알고리즘에서 임계 값을 변경할 수 있는지 여부를 알지 못합니다. 수동으로 작업해야한다면, WEKA가 제공 한 결과를 어떻게 사용하여 혼란을 측정 할 것인가?

미리 감사드립니다.


다음은 요약이며 도움이되는지 여부는 잘 모르겠습니다. 시험에 대한 평가 등급

  TP Rate FP Rate Precision Recall F-Measure ROC Area Class 
      0.998  0.035  0.978  0.998  0.988  0.998 ham 
      0.965  0.002  0.996  0.965  0.98  0.999 spam 

가중 평균함으로써 개요를 Correctly Classified Instances 2715 98.4766 % Incorrectly Classified Instances 42 1.5234 % Kappa statistic 0.9679 Mean absolute error 0.0184 Root mean squared error 0.1136 Relative absolute error 3.8317 % Root relative squared error 23.2509 % Total Number of Instances 2757

상세한 정확성을 분할. 0.985 0.022 0.985 0.985 0.985 0.998

혼란 매트릭스
a b <-- classified as 1669 4 | a = ham 38 1046 | b = spam

답변

1

나는 구글 주변 검색과는 WEKA에 그렇게 할 가능성이 보인다.

그러나 '테스트 옵션'-> '추가 옵션'-> '예상 결과' 그럼에도 각 테스트 샘플의 결과가 나옵니다.

거기에서 나는 나머지 작업을 위해 다른 도구를 사용할 수 있습니다.

1

비용 편익 분석 화면에서 변경할 수 있습니다. 결과 목록에서 결과를 마우스 오른쪽 버튼으로 클릭하고 시각화 임계 곡선을 선택하십시오.

내부에는 임계 값을 이동하는 슬라이더가 있으며, 새로운 혼란 행렬은 왼쪽 하단에 있습니다.

enter image description here