2017-11-07 4 views
-1

이 필요합니까. 실제 세계에서는 약 1 %의 스팸이 발생합니다. 따라서 샘플 입력을 고려하면 약 1 %의 스팸을 예상합니다.순진 베이 즈 텍스트 분류 베이지안 공식 것을 감안할 때 실제 데이터

분류자를 훈련 할 때, 1 %의 스팸만을 포함하는 문서로 교육해야합니까, 아니면 실제 분류에서 훨씬 더 많은 스팸 메일을 분류 자에게 훈련시켜야합니까? 나는 스팸의 훨씬 더 큰 비율, 비정상적으로 큰 될 것입니다

P(A) 

에 대한 다음 값이있는 경우 때문에

나는이를 부탁드립니다. 이것은 내 분류자를 포기할 것인가?이 경우 "햄"문서를 "스팸"으로 분류 할 것인가?

답변

0

베이지안 추정량을 학습하려면 PDF (X | H)와 P (X | S)를 알아야합니다. 여기서 X는 현재 관찰 값이며 H는 스팸/햄 클래스를 나타내며 각각은 훈련 된 것입니다. 즉, P (X | H)는 햄 샘플에서만 학습되고 P (X | S)는 스팸 샘플에서만 학습됩니다. 스팸 대 햄 샘플의 수가 현실을 반영한다면이 점에 그다지 중요하지 않습니다. 그러나 나중에 적절한 Bayesian 추정치를 얻으려면 P (H)와 P (S)를 추정해야하며 실제로는 스팸/햄 비율을 캡처해야합니다.