뉴스 기사의 큰 코퍼스에서 주제 목록을 검색하려고합니다. gensim을 사용하여 LDA를 사용하여 각 문서에 대한 주제 분포를 추출 할 계획입니다. 나는 lda의 gensim 구현에 필요한 처리 된 기사의 형식과 원시 문서를 해당 형식으로 변환하는 방법을 알고 싶다. 위키 피 디아 덤프에서 lda를 사용하는 것에 대한이 링크를 보았지만 형식이 어디에도 언급되지 않은 처리 상태에있는 자료를 찾았습니다.뉴스 기사에서 lda에 gensim을 사용하는 방법은 무엇입니까?
3
A
답변
3
오프라인 학습 단계 및 온라인 기능 생성 단계가 있습니다. 오프라인 학습
은 위키피디아와 같은 큰 코퍼스이 있거나 뉴스 기사의 무리 다운로드 가정합니다. 각 기사/문서
:- 당신은 원시 텍스트 당신은 그것을 lemmatize
- 를 얻을. Gensim 당신은 사전
- 당신은
그런 다음 당신은 TF-IDF의 모델을 학습하고, TF-IDF 공간 전체 코퍼스를 변환 단어 표현의 가방을 만들을 만들 utils.lemmatize에게
온라인
당신은 거의 같은 수행
- Lemmatize을가
- 사전을 사용하여 representaiton 단어의 가방을 만듭니다.
- TF-IDF 모델을 사용하여 TF-IDF 공간으로 변환
- LDA 공간으로 변환하십시오.
4
어떻게 lda 공간을 정상으로 다시 변환 할 수 있습니까, 이해할 수 없습니까? – briskly
Do not는 문서 위에 토픽을 배포하고 TF-IDF 공간에 문서를 갖고 싶습니까? – Karsten