2014-11-27 7 views
2

문서의 용어 및 열에 대한 행이 이미있는 tf-idf 행렬이 있습니다. 이제 주어진 조건 - 문서 행렬을 사용하여 LDA 모델을 학습하고 싶습니다. 첫 번째 단계는 gensim.matutils.Dense2Corpus을 사용하여 매트릭스를 코퍼스 형식으로 변환하는 것 같습니다. 그러나 id2word 매개 변수를 구성하는 방법은 무엇입니까? 나는 용어들 (#terms == # rows) 목록을 가지고 있지만 사전 형식을 알지 못하므로 gensim.corpora.Dictionary.load_from_text과 같은 함수로 사전을 만들 수는 없다. 어떤 제안? 고맙습니다.일부 외부 tf-idf 행렬 및 용어 목록에서 gensim을 사용하여 LDA 모델 교육

답변

1

id2word은 각 id (정수)를 term (문자열)에 매핑해야합니다.

즉, id2word[123] == 'koala'을 지원해야합니다.

일반 Python dict이 가장 쉬운 옵션입니다.