2013-03-27 10 views
5

내가 배열을하는 내가 scikit의 TFIDF의 벡터화 도구를 사용하여 얻은 csr_matrix 및 Y로 X를csr_matrix를 사용하여 gensim corpus 변수를 어떻게 초기화합니까?

내 계획은 LDA를 사용하여 기능을 만드는 것입니다, 그러나, 나는 X와 gensim의 코퍼스 변수를 초기화하는 방법을 찾지 못했습니다 csr_matrix로. 즉, gensim의 문서에 나온 것처럼 코퍼스를 다운로드하거나 X를 조밀 한 행렬로 변환하려고하지 않습니다. 왜냐하면 많은 메모리를 소비하고 컴퓨터가 멈출 수 있기 때문입니다. 한마디로

, 내 질문은

  1. 어떻게 내가 (스파 스)가 csr_matrix 전체 코퍼스를 나타내는을 가지고 주어진 gensim 영장을 초기화 할, 다음과 같다?
  2. 어떻게 LDA를 사용하여 기능을 추출합니까?
+0

또한이 방법에 용어 빈도 매트릭스를 전달할 수 있습니까? – Shashank

답변

7

Gensim 당신을 위해이 작업을 수행 할 종류의 수 반 잘 숨겨진 기능이 있습니다

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

"클래스 gensim.matutils.Sparse2Corpus (스파 스, documents_columns은 = 참) 변환 매트릭스를 scipy.sparse 포맷으로 스트리밍 gensim corpus로 변환합니다. "

저는 CountVectorizer로 추출한 코퍼스를 사용하여 성공한 다음 gensim에로드했습니다.

+0

감사합니다 백만 @ 프레드, 매력처럼 일했습니다! – Curious