2017-04-18 9 views
0

스팸 리뷰를 식별하고 몇 가지 질문이 있으려면 리뷰 사이트에 Naive Byes 분류자를 구현하고 있습니다.여러 Naive Bayes 분류 자 ​​

  1. 이러한기만적인 검토 대, 그들이 검토하는 것은 함께 할 수있는 아무것도 크게 마케팅 쓰레기 같은 스팸 메일의 여러 유형이있다 나에게 발생합니다. 다른 목적으로 여러 분류자를 구현하는 것이 현명 할 수 있습니다. 그러면 다른 사람이 사기성 검토를 배우는 동안 일반 스팸 검색을 더 잘 받아 들일 수 있습니까?

  2. 마찬가지로 "사기성 검토"분류자를 위해 여러 범주의 검토가 이루어 지므로 모든 검토에서 하나의 분류자를 배우는 것이 가장 좋을까요? 카테고리 내에서 뉘앙스를 배울 수 있도록 카테고리별로 분류자를 갖는 것이 더 낫습니까?

내가이 바보되지 않습니다 증거를 알고, 그것을 그냥 수동 검사에 대한 잠재적 리뷰 신고,하지만 난 최고의 설정에 대한 단지 불분명 해요 대해.

답변

0

충분히 복잡한 알고리즘을 사용한다면 두 방법 중 하나를 사용하여 "양호한"데이터와 "불량한"데이터를 구분할 수 있어야합니다. 하나의 모델로 모든 작업을 수행하는 경우 포괄적 인 모델이 "최악의 경우"두 가지 결정 인 "스팸"및 "기만"에 대한 독립적 인 경로를 구축 할 수 있도록 모델 크기를 늘려야합니다.

좋은, 스팸 및 사기성의 세 가지 별도 분류에 대해 교육하는 경우; 그때 당신은 어느쪽으로 든 잘하고 있습니다. 그러나 별도의 교육을 실시하면 모델 크기가 작아지고 교육 과정이 부정확 해 지므로 교육 시간이 단축됩니다.

한편 실제 사용을 위해 두 모델을 사용하면 첫 번째 모델을 통과하는 각 출력이 두 번째 모델을 통과해야하므로 감지 속도가 느려질 수 있습니다. 대부분의 애플리케이션에서 이번에는 중요한 요소가 아닙니다.

무엇보다도 각 클래스에 대해 별도의 모델로 시작해야합니다. 구현 및 교육상의 문제는 찾기 쉽고 격리하기 쉽습니다.