2016-11-07 15 views
0

Gensim의 구현에서 word2vec와 doc2vec 벡터 간의 관계를 이해하려고합니다. 내 응용 프로그램에서 동일한 레이블 (주제)로 여러 문서에 태그를 달기 위해 dbow_words = 1을 사용하여 내 코퍼스에서 doc2vec 모델을 학습하여 단어 벡터도 조정합니다. 나는이 의미에서 많은 의미를 지닌 단어와 문서 벡터 사이의 유사점을 얻을 수 있었다. 예를 들어 . 문서를 얻는 것은 않은 워드 doc2vec_model.docvecs.most_similar 유사 라벨 (긍정적 인 = [doc2vec_model [ "관리"]]을 TopN = 50))워드 벡터 및 단락 벡터 쿼리

내 질문은 그러나 word2vec와 doc2vec 벡터 사이의 유사성을 계산의 이론적 해석에 관한 것입니다 . 똑같은 차원 (d = 200)을 가진 동일한 코퍼스에서 훈련을 받으면 단어 벡터와 문서 벡터를 항상 비교하여 문서 레이블이나 유사한 문서 레이블에 대해 비슷한 단어를 찾을 수 있다고 가정하는 것이 안전할까요? 모든 제안/아이디어를 환영합니다.

질문 2 : 다른 질문은 최종 단어 2vec 모델에서 단어의 빈도가 높거나 낮을 때의 영향에 대한 것입니다. wordA와 wordB가 문서의 특정 문서 레이블 (집합)에 비슷한 컨텍스트를 가지고 있지만 wordA의 단어 빈도가 wordB보다 훨씬 높으면 wordB는 해당 문서 레이블과 더 높은 유사성 점수를 가지게됩니다. 시간적 방법으로 샘플링하여 여러 word2vec 모델을 교육하고 단어가 점점 더 자주 등장하면서 문맥이 비교적 유사하다고 가정 할 때 문서 레이블과의 유사성 점수도 증가한다는 것을 알고 싶습니다. 이 가정을하는 것이 잘못 되었습니까? 모든 제안/아이디어는 대환영입니다.

감사 마니 워드 벡터 및 doctag - 벡터 혼용 같은, 주변 단어 예측 작업 훈련 동안 사용되는 트레이닝 모드

답변

0

, 그들은 의미 유사한 경향이있다. (귀하의 모드, 인터리브 된 스킵 그램 단어 학습을 갖춘 DBOW는 이것에 적합하며 'Document Embedding with Paragraph Vectors'이 사용하는 모드입니다.)

두 번째 질문은 추상적이고 추측입니다. 나는 당신이 그 아이디어를 스스로 시험해야한다고 생각합니다. Word2Vec/Doc2Vec 프로세스는 모델의 제약 조건과 다른 벡터의 품질과의 상충 관계에 따라 특정 기계 론적 단어 예측 작업을 잘 수행하도록 벡터를 교육합니다. 결과적으로 공간 배열이 다른 목적, 즉 랭킹/절대적 유사성, 특정 개념 라인을 따르는 유사성, 분류 등에 유용하게 사용된다는 것은 관찰되고 실용적인 이점입니다. 그것은 '작동하는 트릭'이며 통찰력을 얻을 수 있지만 모델 선택의 다양성이나 코퍼스 특성에 대한 응답으로 모델이 변경되는 방식은 이론적으로나 실험적으로 해결되지 않았습니다.