2011-04-07 3 views
2

문서의 자료에 LDA를 사용하고 일부 주제를 발견했습니다. 내 코드의 출력은 확률을 포함하는 두 개의 행렬입니다. 하나의 의사 - 주제 확률 및 다른 단어 - 화제 확률. 그러나 실제로 이러한 결과를 사용하여 새 문서의 주제를 예측하는 방법을 알지 못합니다. 깁스 샘플링을 사용하고 있습니다. 아무도 어떻게 알 수 있습니까? 감사합니다.잠정적 인 Dirichlet 할당을 사용한 주제 예측

+0

나는 당신이 이미 질문을 교차 게시했다는 것을 알았을 때 http://stats.stackexchange.com/을 제안하려고했습니다. – NPE

+0

http://www.mblondel.org/journal/2010/08/21/latent-dirichlet-allocation-in-python/ (샘플 코드를 연결하는 요지가 있음) 및 http : // blog를 보았습니까? josephwilk.net/projects/latent-semantic-analysis-in-python.html –

+0

LDA를 사용하여 문서에서 주제를 찾았다 고 쓴 것처럼 설명이 약간 혼란 스럽습니다. 내가 정보 검색 강의를 기억하는 한, LDA는 검색어에 포함되어 있지만 문서에 존재하지 않는 단어의 확률을 예측할 수있는 고급 평활 기법입니다. 주제 - 모델. 지금까지 실제로 한 일에 대해 더 많은 정보를 제공하면 매우 유용 할 것입니다. –

답변

3

Java 구현 http://www.arbylon.net/projects/lda-j/lda-j-src-20050325.zip에는 src \ org \ knowceans \ lda \ SearchEnglet.java에 간단한 예제 프로그램이 있습니다. 자바에 익숙하고 코드가 도움이되기를 바랍니다.

원본 용지 http://jmlr.csail.mit.edu/papers/volume3/blei03a/blei03a.pdf은 섹션 5.1 및 5.2의 추측을 설명합니다.

+0

죄송합니다.이 코드를 이해할 수 없으며 Java를 사용하면 더 어려워집니다. – Hossein

+0

LSA에 대한 추론 공식은 조금 복잡하고 LSA에 대한 영어 위키 백과 페이지를 살펴보십시오. http://nlp.fi.muni.cz/projekty/gensim/#의 코드가 더 읽기 쉽습니다. – rocksportrocker