gensim

    0

    1답변

    기존의 gensim Doc2Vec 모델을 가지고 있으며, 교육 세트 및 확장 모델에 대한 반복적 인 업데이트를 시도하고 있습니다. 나는 정상으로 preproecssing 새로운 문서를 가지고 가고, 수행 stoplist = nltk.corpus.stopwords.words('english') train_corpus= [] for i, document i

    0

    1답변

    텍스트 문서를 묶어서 (약 140 개) 텍스트 분석을 시도하고 있습니다. 사전 처리 및 불필요한 단어 및 불용어 제거 후 각 문서는 약 7000 문장 (nlkt의 sentence tokenizer에 의해 결정됨)을 가지며 각 문장의 평균은 약 17 단어입니다. 내 직업은 해당 문서에서 숨겨진 테마를 찾는 것입니다. 주제 모델링에 대해 생각해 보았습니다. 그

    0

    1답변

    Google 뉴스 벡터 -300 데이터 세트를로드했습니다. 각 단어는 300 포인트 벡터로 표현됩니다. 나는 분류를 위해 신경망에서 이것을 사용하고 싶다. 하지만 한 단어 300 개가 너무 큰 것 같습니다. 품질을 떨어 뜨리지 않고 어떻게 벡터를 300에서 100으로 줄일 수 있습니까?

    2

    1답변

    word2vec 유사성 사전을 만들려고합니다. 하나의 사전을 만들 수 있었지만 유사점이 제대로 채워지지 않았습니다. 내 코드에서 아무 것도 놓치고 있습니까? 입력 샘플 데이터 텍스트 TAK PO LUN UNIT 3 15/F WAYSON COMMERCIAL G 28 CONNAUGHT RD WEST SHEUNG WAN - EDDY SUSANTO YAHYA R

    0

    1답변

    gensim python 라이브러리에서 Doc2Vec 모델을 사용하고 있습니다. 동일한 문장 데이터로 모델을 공급하고 매개 변수 : Doc2Vec의 시드를 고정 된 숫자로 설정할 때마다 모델은 모델을 만든 후에 다른 벡터를 제공합니다. 테스트 목적으로, 나는 변경되지 않은 입력 데이터를 줄 때마다 결정된 결과가 필요합니다. 나는 많은 것을 검색했고 gens

    1

    2답변

    Gensim의 doc2vec를 사용하여 대형 코퍼스 용 문서 벡터를 만들었습니다. 이제 model = gensim.models.doc2vec.Doc2Vec(sentences,size = 10, window = 800, min_count = 1, workers=40, iter=10, dm=0) sentences=gensim.models.doc2vec.Tagg

    2

    1답변

    나는 문장의 600,000 행에 대해 doc2vec하려이며 내 코드는 다음과 같습니다 : model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) model.build_vocab(res) model.train(res, total_exa

    1

    1답변

    doc2vec 모델에서 벡터 자체를 클러스터링 할 수 있습니까? 우리는 각 결과 model.docvecs[1] 벡터를 클러스터해야할까요? 클러스터링 모델을 구현하는 방법은 무엇입니까? model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores

    1

    1답변

    나는 gensim의 word2vec와 아무런 관련이없는 신경망으로 훈련 된 임베딩 세트를 가지고있다. 이러한 삽입을 gensim.Word2vec의 초기 가중치로 사용하고 싶습니다. 지금 내가 본 것은 model.load(SOME_MODEL) 일 수 있고 훈련을 계속할 수 있지만 입력으로 gensim modle이 필요합니다. 또한 reset_from() 다른

    0

    1답변

    에폭에서 셔플의 문장과 문제는 word2vec 및 doc2vec이 우수한 자습서, here 및 here을 사용하고 코드 샘플을 사용하려고 시작합니다. 나는 line_clean() 구두점, 불어 등을 제거하는 방법을 추가했습니다. 그러나 훈련 반복에서 호출 된 line_clean() 메서드에 문제가 있습니다. 전 세계적인 방법에 대한 호출이 그것을 망쳐 놓는