는, 주어진 문장에 가장 가능성이 태그는음성 태그의 일부 : 태그 알 수없는 단어 음성 늘어진 장식을 붙이는 부분에서
P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
T
그러나 의해 HMM을 사용하여 결정한다 '말씀'훈련 코퍼스에 표시되지 않은 경우 , P (Word/Tag)는 주어진 모든 가능한 태그에 대해 ZERO를 생성합니다. 이렇게하면 최상의 선택 여지가 없습니다.
모든 알 수없는 단어에 대한 확률의 작은 금액을 할당1), P (UnknownWord/AnyTag가) ~ 엡실론은 ...이 완전히 미지의 P (워드/태그)를 무시 의미 나는 몇 가지 방법을 시도
, 단어는 일정 확률을 할당하여. 그래서 알 수없는 단어에 대한 의사 결정은 사전 확률에 의한 것입니다. 예상대로 좋은 결과를 얻지 못합니다.
2) 라플라스 스무딩 나는 이것과 혼동합니다. 나는 (1)과 이것의 차이점을 모른다. Laplace Smoothing을 이해하는 나의 방법은 모든 알려지지 않은 단어에 일정한 확률 (람다)을 더한다. 알려진 단어 .. 모든 Unknown 단어는 일정 확률 (λ의 분수)을 얻을 것이고 알려진 단어 확률은 모든 단어의 prob가 람다. Laplace Smoothing은 이전과 동일한가요?
*) 알 수없는 단어를 처리하는 더 좋은 방법이 있습니까?