트윗을 사용하여 Doc2Vec 모델을 준비 중입니다. 각 트윗의 단어 배열은? 어떻게. "SENT_2을"Doc2Vec에 사용 된 단어를 추출하는 방법
taggeddocs = [] for index,i in enumerate(cleaned_tweets): if len(i) > 2: # Non empty tweets sentence = TaggedDocument(words=gensim.utils.to_unicode(i).split(), tags=[u'SENT_{:d}'.format(index)]) taggeddocs.append(sentence) # build the model model = gensim.models.Doc2Vec(taggeddocs, dm=0, alpha=0.025, size=20, min_alpha=0.025, min_count=0) for epoch in range(200): if epoch % 20 == 0: print('Now training epoch %s' % epoch) model.train(taggeddocs) model.alpha -= 0.002 # decrease the learning rate model.min_alpha = model.alpha # fix the learning rate, no decay
나는 주어진 트윗과 유사 트윗을 발견하고자하는 말 등 "별도의 문서로 간주되어"SENT_1 "SENT_2으로 표시됩니다
나는 유사한 트윗 레이블을 얻을 :
SENT_4372 SENT_1143 SENT_4024 SENT_4759 SENT_3497 SENT_5749 SENT_3189 SENT_1581 SENT_5127 SENT_3798
그러나 주어진 : 그것은으로 인쇄
sims = model.docvecs.most_similar('SENT_2') for label, score in sims: print(label)
레이블, 원래 짹짹 단어/문장을 어떻게 구합니까? 예 : "SENT_3497"의 짹짹 단어는 무엇입니까? 이것을 Doc2Vec 모델에 쿼리 할 수 있습니까?