2013-05-20 3 views

답변

3

단어 외 어휘를 처리하는 일반적인 방법 중 하나는 훈련 자료에서 낮은 단어 (예 : 주파수 < 3)를 모두 대체하는 것입니다. * RARE * 토큰을 사용하면 태그 지정자가 희소 한 단어에 태그하는 방법을 대략적으로 포착 할 수 있습니다. 그런 다음 테스트 단계에서 태그 지정자의 어휘가 아닌 모든 단어를 RARE *으로 처리하십시오.

더 간단한 방법은 모든 아웃 오브 어휘 단어를 다수 태그로 태그하는 것입니다. nltk 툴킷을 사용하는 다음 코드는 보이지 않는 모든 단어를 'NN'으로 표시합니다.

tagger = nltk.UnigramTagger(trainingCorpus, backoff=nltk.DefaultTagger('NN'))

+0

OP가 파이썬에서 코딩되지 않은 경우 관련성이 있지만별로 유용하지 않음 =) – alvas

0

TnT tagger's paper 알 수없는 단어를 태그하기위한 효율적인 방법을 제공합니다.

알 수없는 단어를 처리하기 위해 사전을 사용하는 또 다른 방법은 this article에서 찾을 수 있습니다. 이 글은 불가리아어, 체코 어, 네덜란드어, 영어, 프랑스어, 독일어, 힌디어, 이탈리아어, 포르투갈어, 스페인어, 스웨덴어, 태국어, 베트남어 등 13 개 언어로 된 TnT와 비교할 때 어휘집 기반 접근법이 알려지지 않은 단어의 유망한 태깅 결과를 얻음을 보여줍니다 . 또한 TnT와 다른 두 POS 및 형태 학적 타거의 정확한 결과 (알려진 단어와 알려지지 않은 단어의 경우)를 13 개 언어로 찾을 수 있습니다.