내가 배열을하는 내가 scikit의 TFIDF의 벡터화 도구를 사용하여 얻은 csr_matrix 및 Y로 X를csr_matrix를 사용하여 gensim corpus 변수를 어떻게 초기화합니까?
내 계획은 LDA를 사용하여 기능을 만드는 것입니다, 그러나, 나는 X와 gensim의 코퍼스 변수를 초기화하는 방법을 찾지 못했습니다 csr_matrix로. 즉, gensim의 문서에 나온 것처럼 코퍼스를 다운로드하거나 X를 조밀 한 행렬로 변환하려고하지 않습니다. 왜냐하면 많은 메모리를 소비하고 컴퓨터가 멈출 수 있기 때문입니다. 한마디로
, 내 질문은
- 어떻게 내가 (스파 스)가 csr_matrix 전체 코퍼스를 나타내는을 가지고 주어진 gensim 영장을 초기화 할, 다음과 같다?
- 어떻게 LDA를 사용하여 기능을 추출합니까?
또한이 방법에 용어 빈도 매트릭스를 전달할 수 있습니까? – Shashank