2012-09-27 5 views
2

는, 주어진 문장에 가장 가능성이 태그는음성 태그의 일부 : 태그 알 수없는 단어 음성 늘어진 장식을 붙이는 부분에서

P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev) 
       T 

그러나 의해 HMM을 사용하여 결정한다 '말씀'훈련 코퍼스에 표시되지 않은 경우 , P (Word/Tag)는 주어진 모든 가능한 태그에 대해 ZERO를 생성합니다. 이렇게하면 최상의 선택 여지가 없습니다.

모든 알 수없는 단어에 대한 확률의 작은 금액을 할당

1), P (UnknownWord/AnyTag가) ~ 엡실론은 ...이 완전히 미지의 P (워드/태그)를 무시 의미 나는 몇 가지 방법을 시도

, 단어는 일정 확률을 할당하여. 그래서 알 수없는 단어에 대한 의사 결정은 사전 확률에 의한 것입니다. 예상대로 좋은 결과를 얻지 못합니다.

2) 라플라스 스무딩 나는 이것과 혼동합니다. 나는 (1)과 이것의 차이점을 모른다. Laplace Smoothing을 이해하는 나의 방법은 모든 알려지지 않은 단어에 일정한 확률 (람다)을 더한다. 알려진 단어 .. 모든 Unknown 단어는 일정 확률 (λ의 분수)을 얻을 것이고 알려진 단어 확률은 모든 단어의 prob가 람다. Laplace Smoothing은 이전과 동일한가요?

*) 알 수없는 단어를 처리하는 더 좋은 방법이 있습니까?

답변

6

두 가지 접근 방식은 비슷하지만 올바르게 이해하면 한 가지 중요한 차이가 있습니다. (1)에서 미지의 단어에 여분의 질량을 할당하고 (2) 모든 계수에 여분의 질량을 할당합니다. 당신은 분명히 (2)하고 싶지 않고 (1)하고 싶습니다.

라플라스 스무딩의 문제점 중 하나는 알려지지 않은 단어를 너무 많이 부추 기고 높은 확률 단어의 확률을 너무 낮추는 것입니다 (상대적으로 말하기). 귀하의 버전 (1)이 실제로이 문제를 악화시킬 것입니다. 기본적으로 지나치게 부드럽게 보일 것입니다.

HMM의 경우 라플라스 스무딩 워드가 좋지만 괜찮지는 않습니다. 대부분의 사람들은 하나의 스무딩을 추가하지만 추가 1/2 등의 것을 실험 할 수 있습니다.

부드럽게하기위한이 간단한 방법을 넘어서려면 Jason Eisner's HMM tutorial의 부록에 설명 된대로 "1 카운트 다듬기"를 확인하십시오. 여기서 기본적인 개념은 알려지지 않은 단어의 경우보다 다양한 저주파 단어로 나타나는 태그에 더 많은 확률 질량을 주어야한다는 것입니다. 예를 들어, 태그 NOUN은 많은 수의 다른 단어에 나타나고 DETERMINER는 적은 수의 다른 단어에 나타나기 때문에 보이지 않는 단어는 NOUN이 될 가능성이 더 큽니다.

더 멋지게 만들려면 비 매개 변수 베이지안 통계에서 가져온 중식 레스토랑 프로세스 모델을 사용하여 보이지 않는 단어/태그 조합에 사전 분포를 적용 할 수 있습니다. Kevin Knight's Bayesian inference tutorial에는 세부 정보가 있습니다.

0

HMM 기반 TnT tagger은 알 수없는 단어를 처리하는 더 좋은 방법이라고 생각합니다 (TnT tagger's paper의 접근 방법 참조).

불가리아어, 체코 어, 네덜란드어, 영어, 프랑스어, 독일어, 힌디어, 이탈리아어, 포르투갈어, 스페인어, 스웨덴어 등 13 개 언어로 된 TnT 및 다른 두 POS 및 형태 학적 타거의 정확도 결과 (알려진 단어와 알 수없는 단어의 경우) 태국어 및 베트남어는 this article에서 찾을 수 있습니다.