2017-05-16 13 views
0

NLP 용 SentenceIterator/DocumentIterator와 관련하여 질문이 있습니다. 내 파일의 각 줄은 하나 이상의 문장으로 구성된 짧은 문서를 나타냅니다. 각 줄을 UIMA nlp 프로세서에 전달하고이 한 줄에 대해 pos 태그가 지정된 문장 목록 (따라서 하나의 문서)을 수신하고 List of PosTaggedSentences를 보겠습니다. 이 목적을 달성 할 수있는 DL4j 라이브러리와 비슷한 것이 있습니까?DeepLearning4j에서 라인 단위로 문서를 NLP 처리하는 방법은 무엇입니까?

SentenceIterator iter = UimaSentenceIterator.createWithPath(filePath); 

이 코드는 파일의 모든 문장을 개별 문장으로 분할하지만 한 줄에 하나의 문서 구조는 유지하지 않습니다.

DL4j에서 어떤 방법을 제안합니까?

답변

0

코드에서 UimaSentenceIterator를 인스턴스화하지 않는 이유는 무엇입니까? 다음의 예와 함께 DeepLearning4j docs suggest doing so는 :

복잡한 무엇을 위해, 우리는 실제 기계 학습 수준에게 UimaSentenceIterator으로 표시 파이프 라인을 추천한다.

SentenceIterator iter = new UimaSentenceIterator(path,AnalysisEngineFactory.createEngine(
    AnalysisEngineFactory.createEngineDescription(
     TokenizerAnnotator.getDescription(), SentenceAnnotator.getDescription())));