말렛 라이브러리를 사용하는 주제 모델링의 추정 함수는 무엇입니까

주제 모델링에 새로운 항목이고 말렛 라이브러리를 사용하려고하는데 질문이 있습니다.말렛 라이브러리를 사용하는 주제 모델링의 추정 함수는 무엇입니까

일부 인스턴스에 대한 주제를 찾기 위해 LDA의 간단한 병렬 스레드 구현을 사용하고 있습니다. 내 질문은 ParallelTopicModel의 예상 기능은 무엇입니까?

나는 API에서 검색했으나 설명이 없습니다. 또한 this tutorial을 읽었습니다.

누군가이 기능이 무엇인지 설명 할 수 있습니까?

편집

이 내 코드의 예입니다 : 이미 설정 한 데이터 및 설정을 주어진 주제 모델을 추정하려고

public void runModel(Sting [] str){  
    ParallelTopicModel model = new ParallelTopicModel(numTopics); 
    ArrayList<Pipe> pipeList = new ArrayList<Pipe>(); 
    // Pipes: lowercase, tokenize, remove stopwords, map to features 
    pipeList.add(new CharSequenceLowercase()); 
    pipeList.add(new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}"))); 
    pipeList.add(new TokenSequence2FeatureSequence()); 
    InstanceList instances = new InstanceList(new SerialPipes(pipeList)); 
    instances.addThruPipe(new StringArrayIterator(str)); 

    model.addInstances(instances); 
    model.setNumThreads(THREADS); 
    model.setOptimizeInterval(optimizeation); 
    model.setBurninPeriod(burninInterval); 
    model.setNumIterations(numIterations); 
    // model.estimate(); 
}

출처

2014-11-05 Jimmysnn

당신의 토큰에 대한 정규 표현식은 조금 이상합니다. 첫째,'\ p {L}'(소문자 문자)는'\ p {P}'(인쇄 가능한 문자)의 부분 집합이므로'[\ p {L }] p {P}]'는'\ p {P}'와 같습니다. 둘째, 모든 문자가 인쇄 가능한 경우 문서 당 단 하나의 토큰 만 가져옵니다 (첫 번째 소문자에서 시작하여 마지막 소문자로 끝납니다). – drevicko

estimate() 실행 LDA.

the ParrallelTopicModel source의 main() 기능을 참조하여 모델을 추정하는 데 필요한 아이디어를 얻으십시오.

출처

2014-11-14 03:45:53 drevicko

데이터와 설정이 주어진 모델을 만들었습니다. 추정 함수를 호출하면 결과는 8 초에 몇 가지 주제가됩니다. 추정 함수를 호출하지 않으면 결과는 3 초에 몇 가지 주제가됩니다. 추정 함수를 호출 할 때의 차이점은 무엇입니까? – Jimmysnn

"주어진 데이터 및 설정 모델을 만드는 방법"은 무엇입니까? 당신은 정확히 무엇을 했습니까? – drevicko

편집 참조하십시오 – Jimmysnn

말렛 라이브러리를 사용하는 주제 모델링의 추정 함수는 무엇입니까

답변

관련 문제