2017-02-16 7 views
2

러시아어를위한 현대 품사 태그 붙이기 + 의존성 파서가 있습니까? 문장에러시아어를위한 현대 의존성 파서

  • 부문
  • 품사 태그 (세밀한 MSD 태그 환영 토큰에
  • 부문 : 나는 일반 텍스트 출력을 처리 할 수있는 도구 또는 서비스를 필요)
  • 보조 정리 (기본 양식)
  • 의존성의 역할은

내가 상업적 목적을위한 도구가 필요 레이블. 상업용 (필요할 경우 구매) 또는 웹 API 용으로 사용할 수있는 숙련 된 통계 모델을 갖춘 오픈 소스 프로젝트 일 수 있습니다. 결국 독점 모델을 갖춘 독점 폐쇄 소스 바이너리가 될 수 있습니다. 러시아어 구문 분석 모델은 온라인에서 발견 한 것보다 TreeTagger를 사용해야합니다. TreeTagger는 1) 매우 비양심적 인 라이센스가 있고, 2) 20 년이 넘었습니다.

답변

0

(좋은) 의존성 파서를 만들기 위해서는 의존성 트리 뱅크가 필요합니다. 종속성 파서를 만드는 모든 팀은 이러한 트리 뱅크에 액세스 할 수 있지만 데이터를 전달할 수는 없습니다. 따라서 파서를 얻을 수는 있지만 일반적으로 사전 모델은 아닙니다.

그래서 직접 모델을 훈련해야합니다. 러시아어에는 종속 트리 뱅크 (SynTagRus)가 있습니다. 상업적 목적으로 사용할 수 있는지 여부를 모르겠습니다. 아마도 이러한 사이트가 도움이 될 것입니다.

https://github.com/UniversalDependencies/UD_Russian-SynTagRus 
https://habrahabr.ru/post/148124/ 
http://www.ruscorpora.ru/index.html 

데이터를 가져올 수 있다면 자신의 모델을 훈련하는 것이 매우 쉬운 작업입니다. 다시 여기서 물어 보거나 인터넷에서 충분한 가이드를 찾을 수 있습니다 (파서는 러시아어이든 다른 언어이든 상관없이 훈련됩니다)