뉴스 기사의 큰 코퍼스에서 주제 목록을 검색하려고합니다. gensim을 사용하여 LDA를 사용하여 각 문서에 대한 주제 분포를 추출 할 계획입니다. 나는 lda의 gensim 구현에 필요한 처리 된 기사의 형식과 원시 문서를 해당 형식으로 변환하는 방법을 알고 싶다. 위키 피 디아 덤프에서 lda를 사용하는 것에 대한이 링크를 보았지만 형식이 어디에도 언급
text_corpus에서 gensim을 사용하여 LDA 모델을 교육했습니다. 새 텍스트 문서 text_sparse_vector 추론 할 수있는 경우 >lda_model = gensim.models.ldamodel.LdaModel(text_corpus, 10)
는 지금은 >lda_model[text_sparse_vector]
[(0, 0.03647956
은 ( TF-IDF (중량) = TF의 * 로그 될 | N |/d); 나는 gensim에서 언급 한 tf-idf 구현을 진행하고있었습니다. 문서에 주어진 예는 분명히 TF - IDF의 표준 구현을 따르지 않는 >>> doc_bow = [(0, 1), (1, 1)]
>>> print tfidf[doc_bow] # step 2 -- use the model