2016-06-20 7 views
1

저는 Gensim을 사용하여 크기 4의 문장을 학습하고 있으며 훈련 데이터 세트에 1192 개의 고유 단어가 있습니다. 모델 len (model.vocab)의 단어 수는 141이지만 의미가 없습니다. 이것을 볼 어떤 이유가 있습니까? 교육에서 모든 단어에 대한 핵심을 갖도록 모델을 어떻게 변경할 수 있습니까? 모델은 = Word2Vec (창, min_count 1 =)gensim의 어휘 수는 학습 데이터의 어휘 수보다 훨씬 적습니다.

답변

0

그것은 대답을하지만 어쩌면이 사람을 도울 수있는 정말 늦었어요, "min_count"라는 gensim.models.word2vec의 기본 매개 변수, 기본 값은 5가, 그것은 생략 데이터 집합에있는 덜 일반적인 단어. 모든 vocab을 원하면 1로 설정하십시오.