2014-11-05 7 views
1

주제 모델링에 새로운 항목이고 말렛 라이브러리를 사용하려고하는데 질문이 있습니다.말렛 라이브러리를 사용하는 주제 모델링의 추정 함수는 무엇입니까

일부 인스턴스에 대한 주제를 찾기 위해 LDA의 간단한 병렬 스레드 구현을 사용하고 있습니다. 내 질문은 ParallelTopicModel의 예상 기능은 무엇입니까?

나는 API에서 검색했으나 설명이 없습니다. 또한 this tutorial을 읽었습니다.

누군가이 기능이 무엇인지 설명 할 수 있습니까?

편집

이 내 코드의 예입니다 : 이미 설정 한 데이터 및 설정을 주어진 주제 모델을 추정하려고

public void runModel(Sting [] str){  
    ParallelTopicModel model = new ParallelTopicModel(numTopics); 
    ArrayList<Pipe> pipeList = new ArrayList<Pipe>(); 
    // Pipes: lowercase, tokenize, remove stopwords, map to features 
    pipeList.add(new CharSequenceLowercase()); 
    pipeList.add(new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}"))); 
    pipeList.add(new TokenSequence2FeatureSequence()); 
    InstanceList instances = new InstanceList(new SerialPipes(pipeList)); 
    instances.addThruPipe(new StringArrayIterator(str)); 

    model.addInstances(instances); 
    model.setNumThreads(THREADS); 
    model.setOptimizeInterval(optimizeation); 
    model.setBurninPeriod(burninInterval); 
    model.setNumIterations(numIterations); 
    // model.estimate(); 
} 
+0

당신의 토큰에 대한 정규 표현식은 조금 이상합니다. 첫째,'\ p {L}'(소문자 문자)는'\ p {P}'(인쇄 가능한 문자)의 부분 집합이므로'[\ p {L }] p {P}]'는'\ p {P}'와 같습니다. 둘째, 모든 문자가 인쇄 가능한 경우 문서 당 단 하나의 토큰 만 가져옵니다 (첫 번째 소문자에서 시작하여 마지막 소문자로 끝납니다). – drevicko

답변

3

estimate() 실행 LDA.

the ParrallelTopicModel sourcemain() 기능을 참조하여 모델을 추정하는 데 필요한 아이디어를 얻으십시오.

+0

데이터와 설정이 주어진 모델을 만들었습니다. 추정 함수를 호출하면 결과는 8 초에 몇 가지 주제가됩니다. 추정 함수를 호출하지 않으면 결과는 3 초에 몇 가지 주제가됩니다. 추정 함수를 호출 할 때의 차이점은 무엇입니까? – Jimmysnn

+0

"주어진 데이터 및 설정 모델을 만드는 방법"은 무엇입니까? 당신은 정확히 무엇을 했습니까? – drevicko

+0

편집 참조하십시오 – Jimmysnn