2017-03-02 4 views
0

나는 특히 NLP와 정서 분석의 영역에 초보적이다. 내 목표는 스탠포드 CoreNLP 감정 모델을 훈련시키는 것입니다. 나는 훈련 자료로 제공된 문장이 다음과 같은 형식이어야한다는 것을 알고있다.stanford corenlp 감정 훈련 세트

(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .))) 

다음 명령을 사용하여 자신의 교육 데이터로 정서적 훈련 모델을 만들 수 있다는 것도 알고 있습니다.

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath  dev.txt -train -model model.ser.gz 

제 질문은 모델 교육에 사용 된 교육 데이터 세트에 액세스 할 수 있습니까? 그렇다면 어디에서 찾을 수 있습니까? 또한 기존 교육 데이터 세트에 새 문장을 추가하고 기차 모델을 만드는 방법이 있습니까?

+0

참조 [어떻게 스탠포드 NLP 심리 분석 도구를 양성하기 위해 (http://stackoverflow.com/questions/22586658/how-to-train-the-stanford-nlp- 정서 분석 도구). –

답변

0

데이터는 여기에 있습니다 : http://nlp.stanford.edu/sentiment/

그냥 같은 형식이 디렉토리에 파일을 넣어 해당 디렉토리에 -trainPath을 설정할 수 있습니다로 새로운 데이터를 생성합니다. 그것은 그 디렉토리에서 모든 파일을로드하고 그들을 훈련시킵니다.

샘플 명령 :

java -Xmx8g edu.stanford.nlp.sentiment.SentimentTraining -train -numHid 25 -trainPath trees/training-data/ -model model.ser.gz