이 필요합니까. 실제 세계에서는 약 1 %의 스팸이 발생합니다. 따라서 샘플 입력을 고려하면 약 1 %의 스팸을 예상합니다.순진 베이 즈 텍스트 분류 베이지안 공식 것을 감안할 때 실제 데이터
분류자를 훈련 할 때, 1 %의 스팸만을 포함하는 문서로 교육해야합니까, 아니면 실제 분류에서 훨씬 더 많은 스팸 메일을 분류 자에게 훈련시켜야합니까? 나는 스팸의 훨씬 더 큰 비율, 비정상적으로 큰 될 것입니다
P(A)
에 대한 다음 값이있는 경우 때문에
나는이를 부탁드립니다. 이것은 내 분류자를 포기할 것인가?이 경우 "햄"문서를 "스팸"으로 분류 할 것인가?