doc2vec

    0

    1답변

    은 내가 doc2vec의 문구를 갖고 싶어하고 난 gensim.phrases를 사용합니다. doc2vec에서 모델을 교육하기 위해 태그가있는 문서가 필요하며 문구에 태그를 지정할 수 없습니다. 내가 어떻게 할 수 있니? 여기 Phrases()의 호출이 문구 창출 모델을 기차 내 코드 text = phrases.Phrases(text) for i in ra

    1

    1답변

    저는 this과 같은 정서 분류 (분석)에 대한보다 현대적인 게시물을 읽었습니다. 내가 Doc2Vec (88 %), 를 사용하여 유사한 정확도 비율을 얻을 것을 발견 예로서 IMDB 데이터 세트 촬영 그러나 특징 추출 (91 %) 대한 트라이 그램 간단한 TFIDF의 vectoriser를 사용하여 훨씬 더 나은 결과 . 이것은 Mikolov's 2015 p

    0

    1답변

    를 사용하여 모델을 doc2vec 재교육하는 방법을, 나는 모델을 훈련하고 저장 한 다음 파일 : 그러나 1. model 2. model.docvecs.doctag_syn0.npy 3. model.syn0.npy 4. model.syn1.npy 5. model.syn1neg.npy , 나는 문서에 레이블을 수있는 새로운 방법을 가지고 훈련 할 다

    0

    1답변

    목표는 감정 분류입니다. 3 xlsx 파일을 열고 읽고 gensim.doc2vec 메서드로 처리하며 SGDClassificator로 분류하는 단계입니다. this code on doc2vec을 반복 해보십시오. print 'length of pos_reviews is %s' % len(pos_reviews) >>> length of pos_reviews

    1

    1답변

    Doc2Vec 훈련 모델에 대한 간단한 평가를 위해 400 차원 벡터를 2 차원으로 변환하고 문서를 노드 집합으로 시각화해야합니다. 두 노드 사이의 거리는 유사도에 반비례합니다 (매우 유사한 노드는 서로 가깝습니다). 일부 검색을 한 후 MDS (다차원 스케일링) 및 sklearn MDS 라이브러리를 발견했습니다. 이제는 각각 크기가 400 인 차원이 2.

    3

    1답변

    저는 Python2로 doc2vec 모델을 교육했으며 Python3에서 사용하고 싶습니다. 내가 파이썬 3에서로드하려고 할 때 , 내가 얻을 : with open('my_doc2vec.pkl', 'rb') as inf: data = pickle.load(inf) data.save('my_doc2vec_python3.pkl') : Doc2Vec

    1

    1답변

    트윗을 사용하여 Doc2Vec 모델을 준비 중입니다. 각 트윗의 단어 배열은? 어떻게. "SENT_2을" taggeddocs = [] for index,i in enumerate(cleaned_tweets): if len(i) > 2: # Non empty tweets sentence = TaggedDocument(words=gen

    0

    1답변

    doc2Vec 알고리즘을 빌드 할 때 여러 개의 임베딩이 필요합니다. 단어 벡터에는 embedding이 있고 동시에 문서 자체에는 embedding이 있습니다. 알고리즘이 작동하는 방식은 CBOW 모델과 비슷하지만, 주어진 윈도우로 트레이닝되는 각 문서마다 문서 임베딩이 사용됩니다. 그래서 우리가 5 개의 단어의 창을 가지고 있다면, 우리는 그 5 개의 단

    3

    1답변

    나는 각각의 벡터 크기가 300 인 약 2300 개의 단락 (2000-12000 단어 사이)에 대한 단락 벡터를 훈련했습니다. 이제 단락으로 간주 한 약 10 만 문장의 단락 벡터를 추론해야합니다 (각 문장은 약 10 개입니다). 이미 훈련 된 초기 2300 개의 단락에 각각 대응하는 30 단어). 그래서, model.infer_vector(sentence

    0

    3답변

    Gensim Doc2vec 모델을 사용하여 문서 벡터를 학습합니다. 나는 '좋은'이라는 표현에 대한 표현을 인쇄했지만 모든 신기원을 발견했다. ID가 '3'인 문서에 대한 표현을 인쇄하는 동안 모든 다른시기는 다릅니다! 내 코드는 다음과 같습니다. 무슨 일이 일어나고 있는지 잘 모릅니다. model = gensim.models.Doc2Vec(dm = 0,