2014-11-14 3 views
0

나는 기계 학습 기술을 사용하여 스팸 탐지에 대해 배우고 있으며 Stack에있는 게시물은 Naive Bayesian Classifier로 시작한다는 것을 암시합니다.열거 형 데이터에 Naive Bayesian Classifier를 사용할 수 있습니까?

내 질문은 : 측정하고있는 속성이 신중하고 연속적이지 않다면 어떻게 통합해야합니까? 이 예에서는 Wikipedia으로 높이, 무게 및 발 크기를 기준으로 남성 대 여성을 검색하는 분류자를 학습합니다. 네 번째 범주 인 "Favorite Sport"가 있다면 어떨까요? 제 가상의 샘플에서 "축구, 축구, 수영, 아이스 스케이트"라고 말했습니다. 이 값은 신중하고 열거 형이며 연속하지 않습니다. 순진한 베이지안 분류자를 계속 사용할 수 있습니까? 이 값을 정수로 매핑 할 수 있지만 (Football = 1, Swimming = 2), 키와 몸무게의 차이에 내포 된 의미가 있습니다 (5 피트는 10 피트와 매우 다릅니다).

기본적으로 신장, 체중, 발 크기 및 좋아하는 스포츠 값이 있다면 Naive Bayesian Classifier를 사용할 수 있습니까?

답변

0

예, 베이지안 분류에서는 데이터에서 쉽게 수행 할 수있는 지원의 클래스 별 배포를 결정하면됩니다. 이제 각 클래스에 대한 사후 분포를 계산 한 다음지도를 계산할 수 있습니다. 실제로 문서의 경우 배포판은 문서 클래스가 스팸 또는 스팸이 아닌 것으로 지정된 사전의 각 단어에 대해 정의됩니다. 자세한 내용은 기계 학습 소개를 참조하십시오.