2017-11-09 23 views
1

bigram을 사용하여 주제 모델을 작성하고 싶습니다. Java에서이를 구현하는 권장 방법은 무엇입니까?Mallet을 사용하여 주제 모델링에서 bigrams 지원 Java Api

현재 Mallet Java API를 사용합니다. 특히, ParallelTopicModel은 인스턴스 객체의 데이터 매개 변수에 문자열로 토큰을 전달합니다.

감사합니다.

답변

1

n 그램을 고려하는 가장 쉽고 신뢰할 수있는 방법은 입력을 수정하는 것입니다. 예를 들어 new yorknew_york으로 바꾼 다음 _을 문자로 허용하는 패턴을 사용하여 토큰화할 수 있습니다. 사용이 모드는 특정 N-g를 식별 할 필요

bin/mallet import-file --help 
A tool for creating instance lists of feature vectors from comma-separated-values 
... 
--replacement-files FILE [FILE ...] 
    files containing string replacements, one per line: 
    'A B [tab] C' replaces A B with C, 
    'A B' replaces A B with A_B 
    Default is (null) 

: 망치는 문서를 가져올 때와 같은 하나의 토큰을 치료하기 위해 문자열을 가진 파일을 지정할 수 있습니다. 또한 모든 bigram을 포함하도록 입력 파일을 수정할 수 있으므로 to be or not to beto_be be_or or_not not_to to_be이됩니다. 그게 유용한 것을 만들어 내는지 나는 모른다.

n-gram 식별을 "기본적으로"지원하지만 학습 시간과 모델 품질에 상당한 비용이 드는 주제 모델 변형도 있습니다. 나는 그들 중 누구도 사용하지 않는 것이 좋습니다.