2013-08-29 3 views
0

나는이 예와 약간 혼동 스럽다. 제 질문에 도달하기 전에 아무 문제가 없다면 저를 시정하십시오! 베이 즈 정리는 다음과 같습니다.Naive Bayes 분류 자의 적용에 대한 이해

P(A│B)= P(B│A) * P(A) 
     ----------    
      P(B) 

예를 들어, 분류 작업은 텍스트 문서에서 수행됩니다. 텍스트 문서는 그래서 모든 중 "테러"또는 "엔터테인먼트"입니다

Prior probability for either, i.e. P(A) = 0.5 

은과 같이 단어 주파수 여섯 개 문서가 있습니다

enter image description here

예는 분해에 간다 각 클래스 관련하여 다음 단어의 주파수,인가 라플라스 추정 :

enter image description here

S

o이 숫자들 각각은 P (B | A), 즉 특정 계급 (테러리즘 또는 접대)이 주어질 때 그 단어가 나타날 확률을 나타냅니다. 밖으로 작동

P(Terrorism | W) = P(Terrorism) x P(kill | Terrorism) x P(bomb | Terrorism) x P(kidnap | Terrorism) x P(music | Terrorism) x P(movie | Terrorism) x P(TV | Terrorism) 

:

enter image description here

예는이 작업을 수행하여 테러에 관한 새로운 텍스트 문서의 확률을 계산합니다 :

이제 새 문서가이 고장으로 도착 예 :

0.5 x 0.2380 x 0.1904 x 0.3333 x 0.0476 x 0.0952 x 0.0952 

다시, 지금까지 나는 내가 따라하고 있다고 생각한다. P (A | B), P (Terrorism) = P (A) = 0.5 그리고 P (B | A) = 위 표의 "테러리즘"에 대한 모든 결과는 서로 곱해진다.

그러나이 새 문서에 적용하려면 위의 P (B | A)를 새 빈도의 제곱으로 계산합니다. 따라서 위의 계산은 다음과 같습니다.

0.5 x 0.2380^2 x 0.1904^1 x 0.3333^2 x 0.0476^0 x 0.0952^0 x 0.0952^1 

거기에서 그들은 내가 얻은 답을 얻습니다. 내 질문은 다음과 같습니다.

수식에서 현재 P (B | A)에 대한 전력으로 새 주파수를 적용한다고합니까?

통계치가 좋지 않습니까? 이것이 보편적인가 아니면 그것을 행하는 특별한 방법인가? 나는 약간 다른 키워드 및 기간을 사용하여 나가 찾아내는 모든보기가 경미하게 다르기 때문에 묻고있다, 나는 그것을 혼란스럽게 다만 약간을 찾아 낼 것이다! 모든

답변

1

첫째, 공식

P(Terrorism | W) = P(Terrorism) x P(kill | Terrorism) x P(bomb | Terrorism) x P(kidnap | Terrorism) x P(music | Terrorism) x P(movie | Terrorism) x P(TV | Terrorism) 

은 매우 옳지 않다. 이 값을 P(W)으로 나눌 필요가 있습니다. 그러나 당신은 나중에 "그들이 몇 가지 합계를한다고"말하면서 돌보아 주므로, 우리는 당신의 주된 질문으로 나아갈 수 있습니다.


는 전통적으로 텍스트 분류에 나이브 베이 즈를 할 때, 당신은 단지 존재 단어의이 아닌 자신의 카운트 봐. 물론 기차 시간에 P(word | class)을 계산할 필요가 있지만 시험 시간에 P("music" | Terrorism)은 대개 테러 관련 문서에 "music"이라는 단어가 적어도 한 번 나타날 확률을 의미합니다.

P("occurrences of kill" = 2 | Terrorism)P("at least 1 occurrence of kill" | Terrorism)과 다른 계정을 고려 중입니다. 그런데 왜 그들이 권력을 잡을 확률이 높아 집니까? 그들의 추론은 P("kill" | Terrorism) (열차 시간에 추정 한 것)이 테러리즘 문서에서 임의의 단어가 "죽일"가능성을 나타내는 것으로 보입니다. 그래서 가정을 단순화함으로써, 테러리즘 문서에서 임의의 단어가 "죽임"이 될 확률은 P("kill" | Terrorism)입니다.

이렇게하면 문서에 단어가없는 경우 약간의 문제가 있습니다. 이 방식을 사용하면 해당 확률이 0 계 수로 증가합니다. 즉, 사라집니다. 즉, 그것은 대략 P("occurrences of music" = 0 | Terrorism) = 1입니다. 일반적으로 이것은 엄격하게 말하면 거짓이어야합니다. 이는 P(occurrences of music" > 0 | Terrorism) = 0을 암시하기 때문입니다. 그러나 긴 문서와 수천 또는 수만 단어가있는 실제 예에서는 대부분의 문서에 대부분의 단어가 표시되지 않습니다.. 그래서 계산 확률이 높은 모든 확률을 정확하게 계산하는 대신, 대다수의 경우 분류 결과를 변경하지 않기 때문에 기본적으로 양탄자 밑으로 휩쓸립니다. 또한 수치 적으로 계산량이 많은 것은 수치 적으로 불안정합니다. 왜냐하면 1보다 작은 수천 또는 수만 개의 숫자를 곱하면 언더 플로우가 발생하여 0이 나오기 때문입니다. 당신이 로그 공간에서 그렇게한다면 숫자의 안정성 관점에서 정교하게 다루어 져야 할 수만 개의 숫자를 추가하고있는 것입니다. 따라서 "힘으로 끌어 올리는"계획은 불필요한 잔털을 제거하고 계산 강도를 줄이며 수치 안정성을 높이며 여전히 거의 동일한 결과를 산출합니다.


내가 NSA 나는이 답변에 너무 많은 단어 테러를 사용하는 데 대한 테러리스트라고 생각하지 않습니다 희망 :

+0

재미를 S, I, 롤 모든 테러 물건과 같은 일을 생각했다. 그들은 내가 처음에 참조하는 P (W)를 무시합니다. 상대적인 비교 일뿐입니다. 고마워, 내 혼란의 일부를 정리! 건배 –