2009-11-06 12 views

답변

9

nltk.ne_chunk() 메소드를 사용하면 엔티티 청크라는 상자를 사용할 수 있습니다. 조직으로

Tree('S', [Tree('PERSON', [('Barack', 'NNP')]), Tree('ORGANIZATION', [('Obama', 'NNP')]), ('lives', 'NNS'), ('in', 'IN'), Tree('GPE', [('Washington', 'NNP')])])

그것은 사람으로 버락를 식별하지만 오바마에

nltk.ne_chunk([('Barack', 'NNP'), ('Obama', 'NNP'), ('lives', 'NNS'), ('in', 'IN'), ('Washington', 'NNP')])

결과 : 그것은 POS의 목록 튜플 태그합니다. 완벽하지는 않습니다.

+1

named_entities는별로 신경 쓰지 않지만 일반적으로 청킹하는 경우에는 어떻게해야합니까? 예를 들어 "노란 개"는 청크이고 "실행 중"은 청크입니다. – TIMEX

+0

그래, 내 지식에는 아무런 기본이 없다. (확실히 nltk에 대한 모든 것을 모른다.) RegexpChunkParser를 사용할 수도 있지만 직접 규칙을 개발해야합니다. 여기에 예제가 있습니다. http://gnosis.cx/publish/programming/charming_python_b18.txt – ealdent

8

기본 청크/얕은 파서 중 하나를 찾을 수 없습니다. 이 책에서는 예제 기능을 사용하여 빌드하고 교육하는 방법을 설명하고 있지만, 좋은 성능을 얻을 수있는 추가 기능이 생겨서는 안됩니다.

Training Classifier-based Chunkers의 7 장의 섹션을 참조하십시오.