에서 사용자 지정 nltk corpus를 만들면 nltk에서 사용자 지정 자료를 만드는 데 여전히 probs가 있습니다. 나는 태그가있는 문장의 텍스트 파일을 가지고 있는데, 각 항목은 ... word/tag 형식의 문자열이다. 나는이 물건을 사용하여 술래 잡이를 훈련시키고 싶다. 다양한 taggers 유형을 교육하는 train-tagger라는 nltk 패키지를 사용하려고합니다. 2 개의 질문. 1) train-tagger는 텍스트 파일을 입력으로 사용하거나 nltk corpus 객체 만 사용할 수 있습니까? 2) 코퍼스 만 사용하는 경우 텍스트 파일에서 텍스트를 만드는 방법은 무엇입니까? 내가 코퍼스를 만들려면 다음 코드를 시도 ...많은 게시물을 읽은 후 태그가 지정된 텍스트 파일
import nltk
from nltk.corpus import PlaintextCorpusReader
corpus_root = './'
newcorpus = PlaintextCorpusReader(corpus_root, '.*')
print newcorpus.raw('IOBHarrisonsTraining.txt') .... this is my tagged text file
작동하지 않지만 출력을 찾을 수 없습니다. 이 코드가 실행되는 폴더 나 nltk_data/corpora에서 생성 된 코퍼스가 있어야하지만 아무 것도 발견되지 않습니다. 내가 만든 'newcorpus'를 저장하는 코퍼스 모듈에 몇 가지 메소드가 있습니까? 그런 다음 열차 타기를 할 수없는 사람으로 사용할 수 있습니까? 또한, 태그가있는 문장 파일을 PlaintextCorpusReader 또는 문장의 태그가없는 문장에 대한 입력으로 사용해야합니까?