파이썬에서 NLKT가 * raw_parse * 함수를 통해 수행되지만 Java를 사용해야 함을 발견했습니다. 나는 cleartk가 MaltParser 래퍼를 가지고 있음을 발견했지만 그것에 관한 문서는 없습니다. 나는 MaltParser가 MaltParser와 함께 사용할 수 있고 그것을 파싱 할 수있는 원시 파일을 conll 파일로 변환하는 함수 나 프로젝트를 찾고있다. 어떤 도움을 주셔서 감사합니다.Java에서 MaltParser로 원시 텍스트 구문 분석
3
A
답변
0
examples/apiexamples/srcex 폴더에 MaltParser 1.7.2 배포와 함께 제공되는 예제가 있습니다.
그러나이 예제는 토큰 화 및 포지 팅이 이미 수행 된 후 (그리고 이러한 단계의 출력이 CONLL과 같은 형식으로 변환 된 후) 프로그래밍 방식으로 MaltParser를 실행하는 방법만을 보여줍니다.
나는 현재 더 나은 (더 간단하고/더 짧은) 대안을 제공 할 수 없기 때문에 적어도 토큰 화, 품사 태깅 (OpenNLP 사용) 및 의존성 분석 (MaltParser 사용)을 수행하는 Groovy script에 대한 링크를 공유 할 수있었습니다.). 도구는 UIMA를 사용하여 상호 운용 가능하게 만들어집니다. Maven에 익숙하다면, 그 스크립트의 자바 버전을 파생시키는 것은 아주 솔직해야합니다.
마음이 가장 좋은 대답은 아니지만이 시점에서 아무 것도없는 것보다는 나은 것 같습니다.
참고 : 저는 Apache UIMA 및 DKPro Core (링크가 가리키는 프로젝트)의 개발자입니다.
나는 원시 텍스트를 파싱하지 않는다고 생각합니다. 그들은 모두 형식화 된 입력 형식을 취합니다. – Dana
당신이 옳은 말은 ... 어리석은 ... 날 텍스트에 MaltParser를 사용하려면 tokenizer와 품사 태그 지정 도구가 필요합니다. – rec