doc2vec

    0

    1답변

    model 개체의 동일한 복사본에 model.wv.most_similar_cosmul을 multiple cores을 사용하여 batches of input pairs에 전화하고자합니다. multiprocessing 모듈은 model의 사본이 여러 개 필요합니다. model은 RAM이 30GB 이상이므로 너무 많은 RAM이 필요합니다. 내 쿼리 쌍을 평가하려

    1

    1답변

    비슷한 문장을 찾기 위해 word2vec/doc2vec를 적용하려고합니다. 먼저 단어 유사성에 대한 word2vec를 고려하십시오. 내가 이해하는 바는 CBOW를 사용하면 컨텍스트에서 가장 적합한 단어를 찾을 수 있지만 Skip-gram은 주어진 단어의 컨텍스트를 찾는 데 사용되므로 두 경우 모두 자주 발생하는 단어를 얻게됩니다. 그러나 유사한 단어를 찾는

    0

    1답변

    기존의 gensim Doc2Vec 모델을 가지고 있으며, 교육 세트 및 확장 모델에 대한 반복적 인 업데이트를 시도하고 있습니다. 나는 정상으로 preproecssing 새로운 문서를 가지고 가고, 수행 stoplist = nltk.corpus.stopwords.words('english') train_corpus= [] for i, document i

    1

    2답변

    Gensim의 doc2vec를 사용하여 대형 코퍼스 용 문서 벡터를 만들었습니다. 이제 model = gensim.models.doc2vec.Doc2Vec(sentences,size = 10, window = 800, min_count = 1, workers=40, iter=10, dm=0) sentences=gensim.models.doc2vec.Tagg

    0

    1답변

    doc2vec 모델을 교육 한 후에 다른 모듈의 문서 벡터를 다시 사용하고 싶습니다. 이것을 구현하는 방법은 두 가지 인 것 같습니다 : 및 doc-vectors를 사전으로 저장하여 을 저장하십시오. 나는 어느 쪽이 메모리 효율이 더 좋고 대상 모듈에서 더 빨리 읽힐 까?

    2

    1답변

    나는 문장의 600,000 행에 대해 doc2vec하려이며 내 코드는 다음과 같습니다 : model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) model.build_vocab(res) model.train(res, total_exa

    1

    1답변

    doc2vec 모델에서 벡터 자체를 클러스터링 할 수 있습니까? 우리는 각 결과 model.docvecs[1] 벡터를 클러스터해야할까요? 클러스터링 모델을 구현하는 방법은 무엇입니까? model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores

    0

    1답변

    gensim doc2vec (~ 500K 벡터 150 차원)를 사용하여 생성 된 문서 벡터 집합이 있습니다. 클러스터링 알고리즘을 실행할 수있는 n * n 유사도 행렬을 생성하려는 비슷한 문서를 클러스터링하고 싶습니다. 나는이 링크 https://github.com/RaRe-Technologies/gensim/issues/140의 지침을 gensim.sim

    0

    1답변

    에폭에서 셔플의 문장과 문제는 word2vec 및 doc2vec이 우수한 자습서, here 및 here을 사용하고 코드 샘플을 사용하려고 시작합니다. 나는 line_clean() 구두점, 불어 등을 제거하는 방법을 추가했습니다. 그러나 훈련 반복에서 호출 된 line_clean() 메서드에 문제가 있습니다. 전 세계적인 방법에 대한 호출이 그것을 망쳐 놓는

    0

    1답변

    print(model.docvecs['recipe__11'])을 사용하여 doc2vec의 주어진 태그에 대한 문서 벡터를 얻는 것을 알고 있습니다. 내 문서 벡터 중 하나 요리법 (태그 recipe__로 시작), 신문 (태그 news__로 시작) 또는 성분 (태그 ingre__ 시작) 가 지금은 조리법의 모든 문서 벡터를 검색 할 수 있습니다. 내 요리법