1
MLE를 사용하여 n-gram 모델을 학습하는 방법에 대한 많은 문서를 배웠습니다. 그러나 모든 구현이 n-gram을 계산하여 조건부 확률을 계산하는 것만 보았습니다. 제 질문은 MLE와의 관계입니까?MGR은 n-gram 모델을 학습하는 데 어떻게 사용됩니까?
MLE를 사용하여 n-gram 모델을 학습하는 방법에 대한 많은 문서를 배웠습니다. 그러나 모든 구현이 n-gram을 계산하여 조건부 확률을 계산하는 것만 보았습니다. 제 질문은 MLE와의 관계입니까?MGR은 n-gram 모델을 학습하는 데 어떻게 사용됩니까?
직관적으로, 전 세계 텍스트의 모든 n-gram을 계산하여 확률을 계산해야합니다. 이것은 매우 비현실적이므로, MLE는 주어진 n-gram 확률을 주어진 코퍼스에서 계산하여 추정하는 방법을 제공합니다. 만약 단어 X 다음 단어 Y의 음절 확률이 필요한 경우
는 예를 들어, 한 쌍 로서 그 발생 횟수를 카운트. 그러면로 시작하는 모든 bigrams의 합계로 나누어이 카운트를 정규화 할 X (예 : X 모든 가능한 단어 따르고)에 MLE 추정치 결국 0과 1
하는 것으로 :
따라서,이 음절 확률은 다음의 식에 의해 추정 할 수있다
: X 자체의 유니 그램 카운트