2017-11-13 4 views
1

코어 NLP 파서를 사용하여 텍스트를 토큰 화합니다. 예 "... dem Späteren Papst Benedikt XVI., Glaubenskongergation ..."어떻게 Core NLP Pos Tagger가 토큰 화되는 것을 막으시겠습니까?

이제 문제는 파서를 사용하여 텍스트를 토큰화할 때 "XVI"토큰을 얻는 것입니다. 맞습니다. 하지만 Core NLP Pos Tagger로이 토큰을 사용할 때 원치 않는 두 개의 토큰 [u'XVI ', u'NE'], [u'. ', u' $.']이 나타납니다. 원래 토큰에 태그를 붙일 수 있습니까?

답변

0

해당 텍스트에 파이프 라인을 실행하는 경우 제대로 토큰 화해야합니다.

java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-german.properties -file example-1.txt -outputFormat text 

당신은이 작업을 수행하는 전체 스탠포드 CoreNLP 자료를 필요로하고 독일 모델 항아리가 필요합니다 여기

는 샘플 명령입니다.

그 자원은 여기에 모두 사용할 수 있습니다 https://stanfordnlp.github.io/CoreNLP/download.html 참고로

, 이들은 독일의 속성입니다 (당신은 독일의 속성을 사용하여 지정하면 익숙해 위의 명령으로 파일) :

annotators = tokenize, ssplit, pos, ner, parse 

tokenize.language = de 

pos.model = edu/stanford/nlp/models/pos-tagger/german/german-hgc.tagger 

ner.model = edu/stanford/nlp/models/ner/german.conll.hgc_175m_600.crf.ser.gz 
ner.applyNumericClassifiers = false 
ner.useSUTime = false 

parse.model = edu/stanford/nlp/models/lexparser/germanFactored.ser.gz 

# depparse 
depparse.model = edu/stanford/nlp/models/parser/nndep/UD_German.gz 
depparse.language = german 

위의 명령은 구문 분석 트리와 모든 pos 태그가있는 사람이 읽을 수있는 출력 파일을 만듭니다. 파이프 라인을 실행하는 데는 여러 가지 방법이 있습니다. 하나는 위의 명령 행 명령이고, Java API로 실행할 수도 있습니다. 여기

자세한 내용 : 여기 https://stanfordnlp.github.io/CoreNLP/cmdline.html 과 : https://stanfordnlp.github.io/CoreNLP/api.html