기본 POS 태그 지정 및 기본 토큰을 사용하고 있습니다. 충분합니다. 나는 그들의 기본 chunker를 원한다.Python에서 NLTK 툴킷의 기본 청크는 무엇입니까?
NLTK 툴킷 북을 읽고 있는데, 기본 체커가없는 것 같습니까?
기본 POS 태그 지정 및 기본 토큰을 사용하고 있습니다. 충분합니다. 나는 그들의 기본 chunker를 원한다.Python에서 NLTK 툴킷의 기본 청크는 무엇입니까?
NLTK 툴킷 북을 읽고 있는데, 기본 체커가없는 것 같습니까?
nltk.ne_chunk() 메소드를 사용하면 엔티티 청크라는 상자를 사용할 수 있습니다. 조직으로
Tree('S', [Tree('PERSON', [('Barack', 'NNP')]), Tree('ORGANIZATION', [('Obama', 'NNP')]), ('lives', 'NNS'), ('in', 'IN'), Tree('GPE', [('Washington', 'NNP')])])
그것은 사람으로 버락를 식별하지만 오바마에
nltk.ne_chunk([('Barack', 'NNP'), ('Obama', 'NNP'), ('lives', 'NNS'), ('in', 'IN'), ('Washington', 'NNP')])
결과 : 그것은 POS의 목록 튜플 태그합니다. 완벽하지는 않습니다.
기본 청크/얕은 파서 중 하나를 찾을 수 없습니다. 이 책에서는 예제 기능을 사용하여 빌드하고 교육하는 방법을 설명하고 있지만, 좋은 성능을 얻을 수있는 추가 기능이 생겨서는 안됩니다.
Training Classifier-based Chunkers의 7 장의 섹션을 참조하십시오.
named_entities는별로 신경 쓰지 않지만 일반적으로 청킹하는 경우에는 어떻게해야합니까? 예를 들어 "노란 개"는 청크이고 "실행 중"은 청크입니다. – TIMEX
그래, 내 지식에는 아무런 기본이 없다. (확실히 nltk에 대한 모든 것을 모른다.) RegexpChunkParser를 사용할 수도 있지만 직접 규칙을 개발해야합니다. 여기에 예제가 있습니다. http://gnosis.cx/publish/programming/charming_python_b18.txt – ealdent