2016-05-31 6 views
0

나는코퍼스를 만드는 동안 gensim에서 사전 크기를 늘리는 방법은 무엇입니까?

background_corpus = TextCorpus('wiki.en.text') 

은 따라서이

adding document #820000 to Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk', u'billycorgan', u'olmsville']...) 

discarding 31072 tokens: [(u'vnsas', 1), (u'ezequeel', 1), (u'trapeztafel', 1), (u'pubsub', 1), (u'gyvenimas', 1), (u'gilibrand', 1), (u'catfaced', 1), (u'beuningan', 1), (u'moodadi', 1), (u'nocaster', 1)]... 

keeping 2000000 tokens which were in no less than 0 and no more than 830000 (=100.0%) documents 

를 제공이 코퍼스을하고 사전에 추가하는 동안, 그래서이는 10 GB 파일입니다 자사의 새로운 폐기 명령을 사용하여 신체를 만들고 있었다 토큰의 최대 크기는 2000000입니다. 어쨌든 내가 사전의 크기를 제한 할 수 없습니까?

답변

0

여기에 설명이 https://radimrehurek.com/gensim/corpora/dictionary.html입니다. 인수 prune_at2000000으로 설정되며, 사용하는 기능에 따라 폐기 문제를 피하기 위해 None으로 변경할 수 있습니다.

EDIT : gensim/corpora/dictionary.py (현재 함수의 현재 릴리스에서는 45 번째 줄)에서 prune_at = None을 설정하거나 사용자 자신의 한계 (예 : prune_at = 5000000으로 5000000)를 설정할 수 있습니다.