gensim

    0

    1답변

    약 150,000 개의 문서에 대한 구조화되지 않은 데이터가 있습니다. 나는 감독되지 않는 학습 알고리즘을 사용하여이 문서들을 그룹화하려고 노력 중이다. 현재 gensim Python에서 LDA (Latent Dirichlet allocation)를 사용하고 있습니다. LDAModel의 경우 num_topics = 20을 전달했습니다. 따라서 내 전체 15

    10

    1답변

    gensim을 사용하여 자체 자료에서 doc2vec 및 해당 word2vec를 교육했습니다. 나는 단어와 함께 t-sne을 사용하여 word2vec를 시각화하고 싶다. 마찬가지로 그림의 각 점에는 "단어"가 있습니다. 내가 여기에 비슷한 질문 보았다 : g로 수입 gensim 수입 gensim.models from sklearn.manifold import

    0

    1답변

    OS X의 Jupyter 노트북에서 doc2vec 모델을 학습 할 때 다음 오류가 발생합니다. 현재 데이터 세트에 대한 오류가 재현 가능하지만 변경 사항이 발생하는 특정 스레드가 변경됩니다. , 비록 다른 데이터 세트에서 성공적으로 모델을 훈련 시켰지만. Exception in thread Thread-82: Traceback (most recent ca

    2

    1답변

    디스크에 Gensim 사전을 저장했습니다. 로드 할 때 id2token 속성 dict가 채워지지 않습니다. 사전 저장 코드의 간단한 조각 : 나는 (내가 jupyter 노트북에 넣기 해요)을로드 할 때 지금 dictionary = corpora.Dictionary(tag_docs) dictionary.save("tag_dictionary_lda.pkl")

    0

    1답변

    패턴과 물건을 찾는 벡터를 분석하고 SVM을 사용하여 클래스 A와 B 사이의 분류 작업을 완료하려면 작업을 감독해야합니다. 이상하게 들릴지 모르지만 숙제 일 수 있습니다. 결과적으로 내가 알아야 할 내용은 다음과 같습니다. 훈련 된 모델을 사용하여 문서의 코드화 된 벡터를 추출하는 방법은 무엇입니까? 2 개를 해석하는 방법과 word2vec에서 코드를 어떻

    0

    1답변

    gensim을 사용하여 CountVectorizer()에서 n_gram 매개 변수를 모방하려고합니다. 내 목표는 Scikit 또는 Gensim에서 LDA를 사용하고 매우 유사한 바이 그램을 찾을 수있게하는 것입니다. 예를 들어, 우리가 scikit 다음과 같은 bigrams 찾을 수 있습니다 "설문 조사", "ABC 컴퓨터", "정렬되지 않은 바이너리"와

    1

    1답변

    gensim 라이브러리를 사용하여 wiki-fasttext 모델을로드하려면 이 여섯 분이 걸립니다. 모델을 캐시하는 방법을 알고 있지만 초기 모델 로딩 속도를 높이는 방법을 찾고 있습니다. 특정 API는 다음과 같습니다. en_model = KeyedVectors.load_word2vec_format(os.path.join(root_dir, model_fi

    1

    1답변

    나는이 page을 읽었지만 다음 코드를 기반으로 만들어진 모델 간에는 어떤 차이가 있는지 이해하지 못합니다. dbow_words가 0 일 때 doc-vectors에 대한 학습이 빠릅니다. 첫 번째 모델 model = doc2vec.Doc2Vec(documents1, size = 100, window = 300, min_count = 10, workers=4

    -1

    1답변

    내가 gensim.Word2Vec.load(fname)를 사용하여 바이너리 파일을로드하려고하지만 오류 얻을 : File "file.py", line 24, in model = gensim.models.Word2Vec.load('ammendment_vectors.model.bin') File "/home/hp/anaconda3/lib/python3.6/sit

    0

    1답변

    gensim 버전 0.12.4을 사용하고 있으며 동일한 텍스트와 동일한 매개 변수를 사용하여 두 개의 별도 단어 삽입을 교육했습니다. 교육을 마친 후 나는 단어 발생 빈도와 벡터 길이 간의 Pearsons 상관 관계를 계산합니다. 한 모델은 save_word2vec_format(fname, binary=True)을 사용하여 훈련 한 다음 load_word2