2014-11-26 4 views
3

난 그냥 우리가 여기 LDA를 사용하여 추론 문서에 tfidf corpus 또는 corpus를 사용해야합니까?

gensim

에 LDA를 사용하여 추론 문서 때의 TFIDF 영장 중 하나가 사용하는 데 사용하거나 코퍼스 할 수 있는지 궁금하면 예를

from gensim import corpora, models 
import numpy.random 
numpy.random.seed(10) 

doc0 = [(0, 1), (1, 1)] 
doc1 = [(0,1)] 
doc2 = [(0, 1), (1, 1)] 
doc3 = [(0, 3), (1, 1)] 

corpus = [doc0,doc1,doc2,doc3] 
dictionary = corpora.Dictionary(corpus) 

tfidf = models.TfidfModel(corpus) 
corpus_tfidf = tfidf[corpus] 
corpus_tfidf.save('x.corpus_tfidf') 

corpus_tfidf = corpora.MmCorpus.load('x.corpus_tfidf') 

lda = models.ldamodel.LdaModel(corpus_tfidf, id2word=dictionary, num_topics=2) 

#which one i should use from this 
**corpus_lda = lda[corpus]**   #this one 
**corpus_LDA = lda[corpus_tfidf ]** #or this one? 


corpus_lda.save('x.corpus_lda') 

for i,j in enumerate(corpus_lda): 
    print j, corpus[i] 

답변

4

Gensim's mailing list에 따르면 (마지막 게시물입니다 특히 표준 절차는 단어 모음집을 사용하는 것입니다. TF-IDF 코퍼스를 사용할 수는 있지만 이것이 어떤 영향을 미칠지는 분명치 않습니다.