2016-07-22 8 views

답변

1

직관적으로, 전 세계 텍스트의 모든 n-gram을 계산하여 확률을 계산해야합니다. 이것은 매우 비현실적이므로, MLE는 주어진 n-gram 확률을 주어진 코퍼스에서 계산하여 추정하는 방법을 제공합니다. 만약 단어 X 다음 단어 Y의 음절 확률이 필요한 경우

는 예를 들어, 한 쌍 C(xy)로서 그 발생 횟수를 카운트. 그러면로 시작하는 모든 bigrams의 합계로 나누어이 카운트를 정규화 할 X (예 : X 모든 가능한 단어 따르고)에 MLE 추정치 결국 0과 1

사이에 놓 이도록, sum of C(xz) over all z을 모든 음절의 합계가 추가해야합니다 X부터 시작하여 계산하기 때문에이 표현이 더 단순화 될 수

P(y|x) = C(xy)/sum of C(xz) over all z

하는 것으로 :

따라서,이 음절 확률은 다음의 식에 의해 추정 할 수있다

P(y|x) = C(xy)/(x)

: X 자체의 유니 그램 카운트