2017-04-14 7 views
0

스탠포드 NLP는 DocumentPreprocessor에 대한 열차 방법을 제공하여 자신의 코사인을 훈련시키고 문장 분할을위한 자체 모델을 만들지 않습니까?Stanford NLP training documentpreprocessor

저는 독일어 문장으로 작업하고 있으며 문장 분리 작업을 위해 제 자신의 독일어 모델을 만들어야합니다. 따라서 문장 분리자인 DocumentPreprocessor을 훈련해야합니다.

내가 할 수있는 방법이 있습니까?

답변

0

현재 모든 유럽 언어의 토큰 화는 (손으로 쓴) 유한 자동 기계로 수행됩니다. 기계 학습 기반 토큰 화는 중국어 및 아랍어에 사용됩니다. 현재 모든 언어에 대한 문장 분할은 tokenizer의 결정을 이용하여 규칙에 의해 수행됩니다. (당연히 그런 것들이 지금의 상태에 불과하고 어떻게되어야하는지에 관한 것입니다.)

현재 우리는 별도의 독일어 토큰 화기/문장 분리기가 없습니다. 현재 속성 파일은 영어 파일을 다시 사용합니다. 이것은 분명히 차선책입니다. 누군가가 독일어로 무언가를 만들고 싶다면 그렇게하는 것이 좋을 것입니다. (우리는 어느 시점에서 그것을 할 수도 있지만, 독일어 개발은 ​​현재 우선 순위 목록의 최상위에 있지 않습니다.)