Stanford NLP training documentpreprocessor

스탠포드 NLP는 DocumentPreprocessor에 대한 열차 방법을 제공하여 자신의 코사인을 훈련시키고 문장 분할을위한 자체 모델을 만들지 않습니까?Stanford NLP training documentpreprocessor

저는 독일어 문장으로 작업하고 있으며 문장 분리 작업을 위해 제 자신의 독일어 모델을 만들어야합니다. 따라서 문장 분리자인 DocumentPreprocessor을 훈련해야합니다.

내가 할 수있는 방법이 있습니까?

출처

2017-04-14 ilgar

현재 모든 유럽 언어의 토큰 화는 (손으로 쓴) 유한 자동 기계로 수행됩니다. 기계 학습 기반 토큰 화는 중국어 및 아랍어에 사용됩니다. 현재 모든 언어에 대한 문장 분할은 tokenizer의 결정을 이용하여 규칙에 의해 수행됩니다. (당연히 그런 것들이 지금의 상태에 불과하고 어떻게되어야하는지에 관한 것입니다.)

현재 우리는 별도의 독일어 토큰 화기/문장 분리기가 없습니다. 현재 속성 파일은 영어 파일을 다시 사용합니다. 이것은 분명히 차선책입니다. 누군가가 독일어로 무언가를 만들고 싶다면 그렇게하는 것이 좋을 것입니다. (우리는 어느 시점에서 그것을 할 수도 있지만, 독일어 개발은 현재 우선 순위 목록의 최상위에 있지 않습니다.)

출처

2017-05-21 00:22:08

Stanford NLP training documentpreprocessor

답변

관련 문제