2017-10-19 5 views
1

이 게시물의 제목에 따라 StanfordCoreNLP를 사용하여 텍스트의 선거 구민 파싱을 얻는 것이 가능한지 알고 싶습니다. 나는 프랑스어로 쓰여진 본문에서이 작업을하려고합니다. 가능한 경우 텍스트의 버전이이 파일에서 재구성 될 수 있으므로 토큰에 대한 설명이 포함 된 파일 만 필요합니다. 자바에서 프로그래밍하고 Java 클래스를 직접 사용하는 것이 가능할 수도 있지만 많은 Java를 모르기 때문에 명령 줄 명령을 사용하여 이러한 일이 가능한지 알고 싶었습니다. 그런 일에 대해 지식이있는 사람이 있습니까?StanfordCoreNLP를 사용하여 기존의 토큰 화를 사용하면서 선거 구민 파싱을 할 수 있습니까?

나는이 질문에 대한 답변을 검색하여 StanfordCoreNLP 사이트 (https://nlp.stanford.edu/), 특히이 페이지 https://nlp.stanford.edu/software/을 찾았지만 찾고있는 것을 찾지 못했습니다. 소프트웨어에 대한 정보를 얻을 방법을 찾고있을 때 StackOverflow에 대한 질문을하는 것을 발견했습니다.

내 질문에 대한 정확한 공식은 다음과 같습니다. StanfordCoreNLP를 명령 줄 인터페이스와 함께 사용하여 프랑스어로 작성된 텍스트에 선거구 정보를 파싱하는 동시에 StanfordCoreNLP가 선재, 그 텍스트의 토큰 화 입력? 대답이 '예'라면, 어디서 그런 식으로 문서화 할 수 있습니까?

편집 : 예 : 나는 그런 일의 예를 제공 할 것입니다 영어로 작성된 텍스트에 수행되는 :

원시 텍스트 : 존 여행을 갔다 «; 그것은 아주 멋졌다. »

토큰 화 텍스트 : «John은 여행을갔습니다. 그것은 아주 멋졌다. «(ROOT (S (NP (NNP 존)) (VP (: 를»텍스트의

구민 구문 분석 (여기서, 원시 텍스트의 차이는 문장 부호는 해당 앞의 단어에서 분리한다는 것입니다) SBD (WHNP (WDT)) (S (VP (VBD)) (ADJP (RB 꽤) (VBD)().)))))))))))))))))))))))))().)) 현재 StanfordCoreNLP 제품군을 사용하여 원시 텍스트를 제공하여 다른 유형의 정보 중에서 선거구 분석 정보를 계산하는 방법을 알고 있습니다. 그러나이를 달성하기 위해 StanfordCoreNLP 제품군은 자체 토큰 화 단계를 수행합니다.

StanfordCoreNLP 제품군에서 프랑스어 텍스트의 미리 정의 된 토큰 화를 사용/존중하도록 강제하는 방법이 있는지 알고 싶습니다.

편집 2 : 답변

감사합니다. 덧붙여 말하자면, 커맨드 라인에서 "{annotator_name}. {option_name}"형식을 사용하여 StanfordCoreNLP의 파이프 라인 프로세스 동안 사용 된 다른 주석 자의 매개 변수화 방법을 배울 수있었습니다. 다음 번엔 StanfordCoreNLP의 설명서를 탐색 할 때 더 잘 이해할 수있게 될 것입니다.

+0

질문을 개선하여 다른 사람들이 답변하도록 돕는 몇 가지 의견 : 1. 달성하고자하는 것을 설명하기 위해 예제를 제공하십시오. 2. 이미 시도한 접근법을 적어 두십시오. 3. 묻고 싶은 질문을 요약하여 끝까지 넣으십시오. 이 질문에 대해 매우 구체적이어야합니다. – FacePalm

답변

1

tokenize.whitespace 옵션을 사용하고 텍스트를 공백으로 토큰으로 제공하십시오. 이 옵션은 공백으로 구분 된 단어 만 만듭니다.