2016-12-19 7 views
0

토큰 화에서 ner_tags까지 기본 설정으로 core-nlp 주석 파이프 라인을 사용하려고합니다. 나는 "tokenizer"모듈이 {부통령}과 {TITLE} 대신에 {o, TITLE}이라는 ner_tags 식별을하게하는 두 개의 개별 토큰 {vice, president}으로 "부통령"을 식별하고 있음을 관찰했습니다. Ner_Tags가 제목을 적절하게 식별하는 데 도움이되는 "부통령"을 하나의 단일 토큰으로 식별하도록 토큰 화 프로그램을 어떻게 얻을 수 있습니까?스탠포드 코어 -nlp에서 토큰 화 전에 n 그램을 식별하는 방법은 무엇입니까?

답변

2

TITLE을 NER 태그로 사용하기 위해 사용중인 속성은 무엇입니까? 이것은 표준 태그 중 하나가 아니며 TokensRegexNER 주석 자 (예 : kbp 주석 자용)를 사용하는 경우 '부사장'과 같은 여러 단어 제목을 선택해야합니다. 적어도 corenlp.run에서 작동합니다.

일반적으로 NER 범위를 단일 언급으로 축소하는 것은 토크 나이저의 작업이 아닙니다. tokenizer는 'vice'와 'president'를 서로 다른 토큰으로 분리해야하며 둘 다 적절한 NER 주석 자에 의해 제목으로 표시되어야합니다. entitymention 어노 테이트레이터에 관심이있을 수 있습니다.이 어노 테이터는 인접한 NER 태그를 NER 멘션으로 그룹화합니다. 두 개의 토큰을 TITLE로 표시하지 않고 '부사장'을 단일 언급으로 사용합니다. 이러한 언급은 문장 CoreMap에서 mentions annotation을 사용하거나 simple API에있는 List<String> mention(String nerTag) 또는 List<String> mentions() 함수를 사용하여 검색 할 수 있습니다.