2017-02-09 5 views
0

word2vec gensim 패키지를 사용하여 내 데이터 세트에서 word2vec 모델을 교육했습니다. 내 데이터 세트에는 약 131,681 개의 고유 단어가 있지만 모델은 모양의 벡터 행렬 (47629,100)을 출력합니다. 따라서 47,629 단어 만 벡터가 연관되어 있습니다. 나머지는 어때? 모든 고유 단어에 대해 100 차원 벡터를 얻을 수없는 이유는 무엇입니까?Word2vec 모델 쿼리

답변

1

gensim Word2Vec 클래스는 기본값이 min_count 인 5를 사용합니다. 즉, 귀하의 코퍼스에서 5 회 미만으로 나타나는 단어는 무시됩니다. INFO 레벨 로깅을 사용 가능하게하면이 단계 W 학습 단계에서 수행 한 다른 단계에 대한 로깅 메시지가 표시됩니다.

사용 사례가 거의없는 의미있는 벡터를 배우기는 어렵다는 점에 유의하십시오. 따라서 일 때 min_count을 1로 낮출 수는 있지만 벡터가 매우 좋을 것으로 예상해서는 안됩니다. 또한 훈련을 시도해도 다른 벡터를 악화시킬 수 있습니다. (낮은 출현 단어는 본질적으로 잡음 일 수 있으며, 다른 단어 벡터의 훈련을 방해하며, 다른 빈번한 단어는 충분히 많고 다양한 예가 더 좋을 수 있습니다.)

+0

안녕하십니까? :) –