주제 모델링을위한 Gensim의 HDP 모델 (gensim.models.hdpmodel.HdpModel)에는 max_chunks
이라는 인수를 사용하는 생성자가 있습니다.Gensim HDP 토픽 모델 : 코퍼스를 여러 번 통과시키는 법?
설명서에 따르면 max_chunks
은 모델이 넘어갈 청크의 수이며, 제공된 코퍼스의 청크 수보다 크면 교육이 코퍼스를 둘러 쌀 것입니다.
INFO 로그에서 가능성 기능이 감소했다는 경고를 받았기 때문에 통합 할 코퍼스를 여러 번 사용해야 할 수도 있습니다.
LDA 모델은 passes
인수에 여러 반복에 대한 코퍼스를 교육하는 기능을 제공합니다. HDP의 max_chunks
이 LDA의 passes
에 매핑되는 방식을 파악하는 데 어려움이 있습니다.
예를 들어 내 코퍼스에 1000000 개의 문서가 있다고 가정 해 보겠습니다. max_chunks
은 내 말뭉치를 3 번 전달하기 위해 정확히 무엇이 필요합니까?
의견이 있으십니까? 많은 많은 감사