2017-02-03 9 views
-1

저는 며칠 동안 NLTK에서 POS 태거를 개선하려고 노력했지만 그 사실을 알 수는 없습니다. 현재 기본 태그 지정 도구는 정확하지 않으며 대부분의 단어를 'NN'으로 표시합니다. 어떻게 정확성을 높이기 위해 태그를 향상시킬 수 있습니까? 이미 타거 트레이너를 찾아 보았지만 작동시킬 수는 없습니다.Python NLTK PoS 태그가 부정확합니다

아무에게도이 간단한 방법이 있습니까? 고마워.

답변

1

한 번에 한 단어 씩 또는 큰 코퍼스에서 하시겠습니까? 일반적으로 POS 태깅 알고리즘은 단어가 태그 유형 (예 : "NN")의 확률을 사용하지만 주변 문구 컨텍스트를 사용하여 단어가 많을수록 정확할 가능성이 높습니다.

다양한 Unigram, bigram, trigram 등의 태깅을 시도해도 성능의 저하없이 더 높은 정확도를 얻을 수 있습니다. 여기서 그 일을 읽을 수 있습니다 : http://www.nltk.org/book/ch05.html