Gensim의 구현에서 word2vec와 doc2vec 벡터 간의 관계를 이해하려고합니다. 내 응용 프로그램에서 동일한 레이블 (주제)로 여러 문서에 태그를 달기 위해 dbow_words = 1을 사용하여 내 코퍼스에서 doc2vec 모델을 학습하여 단어 벡터도 조정합니다. 나는이 의미에서 많은 의미를 지닌 단어와 문서 벡터 사이의 유사점을 얻을 수 있었다. 예를 들어 . 문서를 얻는 것은 않은 워드 doc2vec_model.docvecs.most_similar 유사 라벨 (긍정적 인 = [doc2vec_model [ "관리"]]을 TopN = 50))워드 벡터 및 단락 벡터 쿼리
내 질문은 그러나 word2vec와 doc2vec 벡터 사이의 유사성을 계산의 이론적 해석에 관한 것입니다 . 똑같은 차원 (d = 200)을 가진 동일한 코퍼스에서 훈련을 받으면 단어 벡터와 문서 벡터를 항상 비교하여 문서 레이블이나 유사한 문서 레이블에 대해 비슷한 단어를 찾을 수 있다고 가정하는 것이 안전할까요? 모든 제안/아이디어를 환영합니다.
질문 2 : 다른 질문은 최종 단어 2vec 모델에서 단어의 빈도가 높거나 낮을 때의 영향에 대한 것입니다. wordA와 wordB가 문서의 특정 문서 레이블 (집합)에 비슷한 컨텍스트를 가지고 있지만 wordA의 단어 빈도가 wordB보다 훨씬 높으면 wordB는 해당 문서 레이블과 더 높은 유사성 점수를 가지게됩니다. 시간적 방법으로 샘플링하여 여러 word2vec 모델을 교육하고 단어가 점점 더 자주 등장하면서 문맥이 비교적 유사하다고 가정 할 때 문서 레이블과의 유사성 점수도 증가한다는 것을 알고 싶습니다. 이 가정을하는 것이 잘못 되었습니까? 모든 제안/아이디어는 대환영입니다.
감사 마니 워드 벡터 및 doctag - 벡터 혼용 같은, 주변 단어 예측 작업 훈련 동안 사용되는 트레이닝 모드