주제 모델링에 새로운 항목이고 말렛 라이브러리를 사용하려고하는데 질문이 있습니다.말렛 라이브러리를 사용하는 주제 모델링의 추정 함수는 무엇입니까
일부 인스턴스에 대한 주제를 찾기 위해 LDA의 간단한 병렬 스레드 구현을 사용하고 있습니다. 내 질문은 ParallelTopicModel의 예상 기능은 무엇입니까?
나는 API에서 검색했으나 설명이 없습니다. 또한 this tutorial을 읽었습니다.
누군가이 기능이 무엇인지 설명 할 수 있습니까?
편집
이 내 코드의 예입니다 : 이미 설정 한 데이터 및 설정을 주어진 주제 모델을 추정하려고
public void runModel(Sting [] str){
ParallelTopicModel model = new ParallelTopicModel(numTopics);
ArrayList<Pipe> pipeList = new ArrayList<Pipe>();
// Pipes: lowercase, tokenize, remove stopwords, map to features
pipeList.add(new CharSequenceLowercase());
pipeList.add(new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")));
pipeList.add(new TokenSequence2FeatureSequence());
InstanceList instances = new InstanceList(new SerialPipes(pipeList));
instances.addThruPipe(new StringArrayIterator(str));
model.addInstances(instances);
model.setNumThreads(THREADS);
model.setOptimizeInterval(optimizeation);
model.setBurninPeriod(burninInterval);
model.setNumIterations(numIterations);
// model.estimate();
}
당신의 토큰에 대한 정규 표현식은 조금 이상합니다. 첫째,'\ p {L}'(소문자 문자)는'\ p {P}'(인쇄 가능한 문자)의 부분 집합이므로'[\ p {L }] p {P}]'는'\ p {P}'와 같습니다. 둘째, 모든 문자가 인쇄 가능한 경우 문서 당 단 하나의 토큰 만 가져옵니다 (첫 번째 소문자에서 시작하여 마지막 소문자로 끝납니다). – drevicko