doc2vec

0열

1답변

은 내가 doc2vec의 문구를 갖고 싶어하고 난 gensim.phrases를 사용합니다. doc2vec에서 모델을 교육하기 위해 태그가있는 문서가 필요하며 문구에 태그를 지정할 수 없습니다. 내가 어떻게 할 수 있니? 여기 Phrases()의 호출이 문구 창출 모델을 기차 내 코드 text = phrases.Phrases(text) for i in ra

1열

1답변

Doc2Vec은 감정 분석에 적합합니까?

저는 this과 같은 정서 분류 (분석)에 대한보다 현대적인 게시물을 읽었습니다. 내가 Doc2Vec (88 %), 를 사용하여 유사한 정확도 비율을 얻을 것을 발견 예로서 IMDB 데이터 세트 촬영 그러나 특징 추출 (91 %) 대한 트라이 그램 간단한 TFIDF의 vectoriser를 사용하여 훨씬 더 나은 결과 . 이것은 Mikolov's 2015 p

0열

1답변

Gensim : Doc2Vec 모델링으로 이전 word2vec 모델

를 사용하여 모델을 doc2vec 재교육하는 방법을, 나는 모델을 훈련하고 저장 한 다음 파일 : 그러나 1. model 2. model.docvecs.doctag_syn0.npy 3. model.syn0.npy 4. model.syn1.npy 5. model.syn1neg.npy , 나는 문서에 레이블을 수있는 새로운 방법을 가지고 훈련 할 다

0열

1답변

xlsx 파일의 Readlines 함수가 적합하지 않음

목표는 감정 분류입니다. 3 xlsx 파일을 열고 읽고 gensim.doc2vec 메서드로 처리하며 SGDClassificator로 분류하는 단계입니다. this code on doc2vec을 반복 해보십시오. print 'length of pos_reviews is %s' % len(pos_reviews) >>> length of pos_reviews

1열

1답변

Python - Sklearn MDS 클래스로 2D에서 Doc2Vec 다차원 벡터 시각화

Doc2Vec 훈련 모델에 대한 간단한 평가를 위해 400 차원 벡터를 2 차원으로 변환하고 문서를 노드 집합으로 시각화해야합니다. 두 노드 사이의 거리는 유사도에 반비례합니다 (매우 유사한 노드는 서로 가깝습니다). 일부 검색을 한 후 MDS (다차원 스케일링) 및 sklearn MDS 라이브러리를 발견했습니다. 이제는 각각 크기가 400 인 차원이 2.

3열

1답변

Doc2Vec 모델 Python 3 호환성

저는 Python2로 doc2vec 모델을 교육했으며 Python3에서 사용하고 싶습니다. 내가 파이썬 3에서로드하려고 할 때 , 내가 얻을 : with open('my_doc2vec.pkl', 'rb') as inf: data = pickle.load(inf) data.save('my_doc2vec_python3.pkl') : Doc2Vec

1열

1답변

Doc2Vec에 사용 된 단어를 추출하는 방법

트윗을 사용하여 Doc2Vec 모델을 준비 중입니다. 각 트윗의 단어 배열은? 어떻게. "SENT_2을" taggeddocs = [] for index,i in enumerate(cleaned_tweets): if len(i) > 2: # Non empty tweets sentence = TaggedDocument(words=gen

0열

1답변

tensorflow에서 여러 임베딩의 조회 포함

doc2Vec 알고리즘을 빌드 할 때 여러 개의 임베딩이 필요합니다. 단어 벡터에는 embedding이 있고 동시에 문서 자체에는 embedding이 있습니다. 알고리즘이 작동하는 방식은 CBOW 모델과 비슷하지만, 주어진 윈도우로 트레이닝되는 각 문서마다 문서 임베딩이 사용됩니다. 그래서 우리가 5 개의 단어의 창을 가지고 있다면, 우리는 그 5 개의 단

3열

1답변

doc2vec - 문서 벡터를 더 빠르게 추론하는 방법은 무엇입니까?

나는 각각의 벡터 크기가 300 인 약 2300 개의 단락 (2000-12000 단어 사이)에 대한 단락 벡터를 훈련했습니다. 이제 단락으로 간주 한 약 10 만 문장의 단락 벡터를 추론해야합니다 (각 문장은 약 10 개입니다). 이미 훈련 된 초기 2300 개의 단락에 각각 대응하는 30 단어). 그래서, model.infer_vector(sentence

0열

3답변

Doc2vec Gensim : 각 에포크 중에 단어 삽입이 업데이트되지 않음

Gensim Doc2vec 모델을 사용하여 문서 벡터를 학습합니다. 나는 '좋은'이라는 표현에 대한 표현을 인쇄했지만 모든 신기원을 발견했다. ID가 '3'인 문서에 대한 표현을 인쇄하는 동안 모든 다른시기는 다릅니다! 내 코드는 다음과 같습니다. 무슨 일이 일어나고 있는지 잘 모릅니다. model = gensim.models.Doc2Vec(dm = 0,