2014-01-22 5 views
0

스탠포드 POS 태거를 사용하여 트윗의 단어에 태그를 지정해야합니다. POS Histogram with Stanford POS Tagger

text_NN

This_DT is_VBZ a_DT sample_NN이 출력을 생성 maxtagger.tagString("This is a sample text");

:

바와 같이 I 클래스 MaxentTagger 다음 방법을 사용하여, 여기 1 설명 이제 각 짹짹마다 각 태그에 대한 발생의 막대 그래프를 만들어야합니다. 짹짹. JavaDoc을 검색했지만 유용한 것은 없습니다.

히스토그램을 직접 만들어야하는 경우 어떻게 문자열 대신 다른 방법으로 출력을 읽을 수 있습니까 (예 : 태그 목록)?

답변

2

대신 tagCoreLabels() 또는 tagSentence() 메서드를 사용하는 것이 좋습니다. 예 : tagSentence()를 사용하면 taggedWord 목록이 반환됩니다. taggedWord에서 tag() 메소드를 사용하여 pos 태그에 쉽게 액세스 할 수 있습니다. 그러면 "_"을 포함하는 POS 태그가있는 단어 나 모델을 설명해야합니다.

간단한 문장 문자열로 목록을 만들려면 PTBTokenizer를 사용하십시오.

new PTBEscapingProcessor().apply(tokens) 

내가 스탠포드 도구에서 히스토그램에 대한 구체적인 지원이 없다 생각하지만, 내가 잘못 일 수 있습니다

List<CoreLabel> tokens = new PTBTokenizer<CoreLabel>(
    new StringReader(s),new CoreLabelTokenFactory(),"invertible").tokenize(); 

파서 모델에 특별한 의미를 갖는 문자를 탈출 PTBEscapingProcessor를 사용합니다.

+0

좋아 보이지만 어떻게 객체를 얻을 수 있습니까? java.util.List 문자열 텍스트에서 확장 하시겠습니까? – Francesco