2017-03-28 16 views
0

주제 모델링을위한 Gensim의 HDP 모델 (gensim.models.hdpmodel.HdpModel)에는 max_chunks이라는 인수를 사용하는 생성자가 있습니다.Gensim HDP 토픽 모델 : 코퍼스를 여러 번 통과시키는 법?

설명서에 따르면 max_chunks은 모델이 넘어갈 청크의 수이며, 제공된 코퍼스의 청크 수보다 크면 교육이 코퍼스를 둘러 쌀 것입니다.

INFO 로그에서 가능성 기능이 감소했다는 경고를 받았기 때문에 통합 할 코퍼스를 여러 번 사용해야 할 수도 있습니다.

LDA 모델은 passes 인수에 여러 반복에 대한 코퍼스를 교육하는 기능을 제공합니다. HDP의 max_chunks이 LDA의 passes에 매핑되는 방식을 파악하는 데 어려움이 있습니다.

예를 들어 내 코퍼스에 1000000 개의 문서가 있다고 가정 해 보겠습니다. max_chunks은 내 말뭉치를 3 번 ​​전달하기 위해 정확히 무엇이 필요합니까?

의견이 있으십니까? 많은 많은 감사

답변

0

chunksize, passesupdate_every 옵션이 다소 혼란 스러울 수 있습니다. 어떻게 내가 당신이 위에 세 패스를 얻어야한다이 link하고 3 passes 세트, 문서의 수에 batch-LDA 세트를 0으로 설정 update_every로하고 chunksize을하고 있다면 귀하의 경우 Chunksize, Passes, and Update_every

그래서 특별히 섹션이었다 도움 완전한 코퍼스.

의 경우 update_every이 1로 설정된 경우 chunksize을 추가로 사용하여 패스 당 최소 배치의 크기를 제어 할 수 있습니다.