gensim

    3

    1답변

    gensim's lda 모델을 사용하려고합니다. 주어진 코퍼스로 lda 모델을 만든 다음 첫 번째 코퍼스에없는 단어가 들어있는 새 코퍼스로이를 업데이트하려면 어떻게해야합니까? 난 그냥 lda_model.update(new_corpus)를 호출 할 때, 나는 다음과 같은 오류가 발생합니다 : /Library/Python/2.7/site-packages/gen

    1

    1답변

    나는 gensim에서 LDA 알고리즘을 적용해야하는 html 문서 10-15 개를 보유하고 있습니다. 컬렉션에 대한 코퍼스 설계 방법을 이해하지 못해서 코퍼스 생성에 어려움이 있습니다. HTML 문서 중. 사이트에있는 예제는 위키 피 디아 압축 파일에서 생성 된 것을 보여줍니다 .xml.bz 누구나 제가 HTML 문서의 무리에 LDA를 적용 할 수 있는지

    1

    1답변

    고유 토큰 360331 개가있는 총 54892 개의 문서가 있습니다. 사전의 길이는 내가이 스크립트를 실행 할 때마다 나는이 오류를 얻을 88 mm = corpora.MmCorpus('PRC.mm') dictionary = corpora.Dictionary('PRC.dict') lda = gensim.models.ldamodel.LdaModel(corp

    2

    1답변

    잠재 용어 의미 분석 (LSA)을 배우고 있으며 용어 - 문서 행렬을 구성하고 SVD 분해를 찾을 수 있습니다. 분해에서 토픽을 얻으려면 어떻게해야합니까? gensim 예를 들어 : topiC#0(332.762): 0.425*"utc" + 0.299*"talk" + 0.293*"page" + 0.226*"article" + 0.224*"delete" + 0

    2

    1답변

    Gensim을 사용하여 LDA 주제 모델링을 실험했습니다. Gensim에서 어떤 주제 모델 평가 도구를 찾을 수 없었습니다. 보류 된 평가 텍스트에 대한 주제 모델의 난이도를보고함으로써 LDA 매개 변수 (예 : 주제 수)의 미세 조정을 용이하게합니다. Gensim에서 주제 모델 평가를 수행 할 수있는 방법에 대해 누구나 밝힐 수 있다면 크게 감사하겠습니다

    1

    1답변

    lda [doc]로 문서에 대한 주제를 얻으면 lda.print_topic (topic_id)을 사용하여 각 주제를 인쇄 할 수 있습니다. HdpModel에 대한 주제를 검색하는 동일한 방법은 무엇입니까? 내가 생각할 수있는 한 가지 방법은 hdap_to_lda를 사용하여 LdaModel을 만드는 것입니다. 더 간단한 방법이 있습니까?

    1

    1답변

    나는 gensim에서 LsiModel을 사용하여 10000 개의 메일 모음에서 주제를 모델링했습니다. 각 주제에 대한 단어와 단어 점수를 얻고 파일에 저장할 수 있습니다. 나는 print_topics() 및 show_topics()을 사용해 보았지만 그 둘 모두는 해당 단어와 관련된 단어 & 만 반환합니다. 그러나 나는 또한 로그 파일에 출력하는 토픽 점수

    14

    2답변

    매개 변수 그러나,이 신체에 가장 적합한 전처리 무엇인지 모르겠습니다. Gensim 모델은 토큰 화 된 문장의 목록을 허용합니다. 첫 번째 시도는 Gensim의 표준 WikipediaCorpus 전 처리기를 사용하는 것입니다. 이것은 각 기사를 추출하고 구두점을 제거하고 공백에 단어를 나눕니다. 이 도구를 사용하면 각 문장이 전체 모델에 해당하므로이 사실이

    5

    1답변

    내가 gensim에 대한 LDA 모델 훈련 후, 우리는에 의해 보이지 않는 문서에 대한 주제를 얻을 수 있다는 사실을 알고 문서 (본 문서)에 대한 주제를 얻을 : lda = LdaModel(corpus, num_topics=10) doc_lda = lda[doc_bow] 하지만 어떻게 이미있는 문서에 대한 훈련에 사용됩니까? 나는 새로운 문서처럼 취

    1

    1답변

    나는 tf-idf 및 LDA (Latent Dirichlet Allocation)에 sklearn 및 gensim 라이브러리를 사용하는 파이썬 코드가 있습니다. 이제 Google 앱 엔진으로 이전하고 싶지만 아직 지원되지 않기 때문에이 두 라이브러리를 사용할 수 없습니다. tf-idf 및 LDA를 수행하기 위해이 두 라이브러리 대신 사용할 수있는 Googl