topic-modeling

    0

    1답변

    내 주제 모델링 (LDA)을 수행하기 위해 MALLET을 사용했습니다. 본인은 (키워드의 목록이 질문에 대한 중요하지 않다) 다음 결과가있는 데이터 집합의 20 개 주제를 발견했습니다 : 0 0.05013 list_of_topic_keywords_0 1 0.06444 list_of_topic_keywords_1 2 0.04946 list_of_topic

    1

    1답변

    LDA (Latent Dirichlet Allocation)는 주제 목록을 생성하는 생성 모델입니다. 각 주제는 단어에 대한 분포로 표현됩니다. 각 주제가 상위 40 단어로 표현된다고 가정하십시오. 새로운 문서가 주어지면 lda를 다시 실행해야하는 필요없이이 새로운 문서를 구성한 주제를 어떻게 결정할 수 있습니까? 즉, 예상되지 않은 새로운 문서의 주제를

    1

    1답변

    나는 말렛을 사용하여 내가 정의한 토픽으로 다른 문서를 분류하려고한다. 말렛은 먼저 주제를 결정한 다음 문서를 분류하지만 첫 번째 단계는 건너 뛰고 싶습니다. 이미 관련 단어가있는 주제 목록이 있기 때문입니다. 말렛으로 문서를 분류하기 위해 만든 사전 정의 된 주제 목록을 사용할 방법이 있습니까? 모든 안내에 감사드립니다. 감사!

    0

    1답변

    LDA와 주제 모델링을 처음 접했고 추론 메커니즘을 이해하고자합니다. 활동 인식에 LDA를 적용하고 싶습니다. 사건의 확률 분포로 구성된 10 개의 주제를 정의했다고 가정 해보십시오. 예를 TOPIC_1 = event1 (0.5), event2 (0.4), event3 (0.0), event4 (0.0) and event5 (0.1). 위해 나는 느릅

    2

    1답변

    나는 총 438 개의 문장을 포함하는 하나의 문서를 가지고있다. 그러나 필자는 주제 모델링 시스템을 사용하여 어떤 문장이 더 관련이 있는지를 알 수 있는지 궁금합니다. 가능한가? 주제 모델링에 대한 모든 논문과 주제에서 보았 듯이이 시스템은 대개 매우 큰 코퍼스를 기반으로 작동합니다. 작은 데이터 세트에서 시스템이 얼마나 정확할 지 알고 싶습니다. 내 주된

    0

    1답변

    gensim 라이브러리를 사용하여 LDA를 문서 세트에 적용하고 있습니다. gensim을 사용하면 용어 가중치가 무엇이든간에 LDA를 적용 할 수 있습니다. 내 질문은 원래의 LDA에 사용해야하는 가중치는 무엇입니까? 내가 올바르게 이해했다면 가중치는 용어 빈도 여야하지만 확실하지 않습니다.

    1

    1답변

    Graber et al.의 결과를 재현하려고합니다. LDA가 다국어 코퍼스와 함께 사용될 때 주제 (예 : 상위 10 개)에 대한 가장 가능성있는 용어는 단일 언어에서 올 것이라고 나타냅니다. 그들의 논문은 here입니다. 이것은 IMO를 수행하는 데있어 합당한 건강 진단이지만 문제가 있습니다. 나는 사용하는 동일한 코퍼스 인 Europarl corpus을

    1

    2답변

    VowpalWabbit.LDA를 사용하여 일부 문서 수집을위한 주제를 생성했습니다. 나는 각 단어와 각 주제에 속하는의 확률의 식별자를 참조하기로 Version 7.7.0 Min label:0.000000 Max label:1.000000 bits:18 0 pairs: 0 triples: rank:0 lda:10 0 ngram:

    1

    2답변

    내가 파이썬 책 건물 기계 학습 시스템 "의 주제 모델링/잠재 디리클레 할당 (LDA)에 튜토리얼을 따라하려고 너무 사라하지 않은 지금까지이 책과 주제 모델링의 첫 번째 부분에서 나에게 오류를 반환 :는 from gensim import corpora, models, similarities corpus = corpora.BleiCorpus('./data/

    2

    1답변

    전체 : R 주제 모델링에서 초보자입니다. 3 주 전부터 시작되었습니다. 그래서 내 문제는 성공적으로 내 데이터를 자료, 문서 용어 매트릭스 및 LDA 기능으로 성공적으로 처리 할 수 ​​있다는 것입니다. 내 의견으로 트윗과 약 460,000 건의 트윗이 있습니다. 그러나 결과에 만족스럽지 않습니다. 모든 주제에 대한 단어는 매우 유사합니다. > terms