2017-05-18 9 views
0

gensim 버전 0.12.4을 사용하고 있으며 동일한 텍스트와 동일한 매개 변수를 사용하여 두 개의 별도 단어 삽입을 교육했습니다. 교육을 마친 후 나는 단어 발생 빈도와 벡터 길이 간의 Pearsons 상관 관계를 계산합니다. 한 모델은 save_word2vec_format(fname, binary=True)을 사용하여 훈련 한 다음 load_word2vec_format을 사용하여로드하고 다른 하나는 model.save(fname)을 사용하여 트레이닝 한 다음 Word2Vec.load()을 사용하여로드했습니다. 단어 2vec 알고리즘은 비 결정적이므로 결과는 다를 수 있지만 두 모델 간의 상관 관계의 차이는 매우 과대하다는 것을 알고 있습니다. 이 경우 어떤 방법을 사용해야합니까?Gensim save_word2vec_format() vs. model.save()

답변

0

편집 : 이것은 설명을위한 것입니다. 지금 죄송합니다. 죄송합니다.

단어 출현 빈도와 벡터 길이의 상관 관계 전혀 그렇지 않습니다 - 모든 벡터가 같은 길이가 아니십니까? 아니면 임베딩 벡터를 언급하지 않습니까?

+0

미안합니다. 미안합니다. - 삽입 벡터의 크기를 사용하고 있습니다. 나는. ''numpy.linalg.norm (model [word])'' – GNMO11