2017-02-08 40 views
1

문서에서 특성 벡터를 추출하는 데 gensim을 사용하고 있습니다. 내가 구글에서 사전 훈련 모델을 다운로드 한 GoogleNews-vectors-negative300.bin 이름 난 다음 명령을 사용하여 해당 모델을로드 :doc2vec에 대한 사전 학습 된 word2vec 모델로드

model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 

내 목적은 문서에서 특징 벡터를 얻는 것입니다. 한 단어의 경우 해당 벡터를 얻는 것은 매우 쉽습니다.

vector = model[word] 

그러나 문서에 대해 수행하는 방법을 모르겠습니다. 도와 주실 수 있겠습니까?

답변

0

Doc2Vec 클래스에 의해 생성 된 텍스트 벡터 (Le/Mikolov 'Paragraph Vectors')의 종류에는 단어 벡터 집합 (예 : GoogleNews-vectors-negative300.bin)이 필요하거나 충분하지 않습니다. 대신 문서 당 벡터를 배우기 위해 예제 텍스트로 교육받을 것으로 기대됩니다. 그런 다음, 훈련 된 모델을 사용하여 다른 새 문서에 대한 벡터를 '추론'할 수 있습니다.

은 (는 Word2Vec 클래스에서 상속 때문에 Doc2Vec 클래스 만 load_word2vec_format() 방법을 지원합니다 - 그것은 해당 기능을 필요로하지 때문이다.)

은 단순히 모든 단어를 평균하여 생성 할 수있는 텍스트 벡터의 또 다른 간단한 종류의있다 문서에서, 아마도 또한 단어 당 의미 가중치에 따라. Doc2Vec이 제공하는 것은 아닙니다.