내 주제 모델링 (LDA)을 수행하기 위해 MALLET을 사용했습니다. 본인은 (키워드의 목록이 질문에 대한 중요하지 않다) 다음 결과가있는 데이터 집합의 20 개 주제를 발견했습니다 : 0 0.05013 list_of_topic_keywords_0
1 0.06444 list_of_topic_keywords_1
2 0.04946 list_of_topic
LDA (Latent Dirichlet Allocation)는 주제 목록을 생성하는 생성 모델입니다. 각 주제는 단어에 대한 분포로 표현됩니다. 각 주제가 상위 40 단어로 표현된다고 가정하십시오. 새로운 문서가 주어지면 lda를 다시 실행해야하는 필요없이이 새로운 문서를 구성한 주제를 어떻게 결정할 수 있습니까? 즉, 예상되지 않은 새로운 문서의 주제를
나는 말렛을 사용하여 내가 정의한 토픽으로 다른 문서를 분류하려고한다. 말렛은 먼저 주제를 결정한 다음 문서를 분류하지만 첫 번째 단계는 건너 뛰고 싶습니다. 이미 관련 단어가있는 주제 목록이 있기 때문입니다. 말렛으로 문서를 분류하기 위해 만든 사전 정의 된 주제 목록을 사용할 방법이 있습니까? 모든 안내에 감사드립니다. 감사!
LDA와 주제 모델링을 처음 접했고 추론 메커니즘을 이해하고자합니다. 활동 인식에 LDA를 적용하고 싶습니다. 사건의 확률 분포로 구성된 10 개의 주제를 정의했다고 가정 해보십시오. 예를 TOPIC_1 = event1 (0.5), event2 (0.4), event3 (0.0), event4 (0.0) and event5 (0.1).
위해 나는 느릅
나는 총 438 개의 문장을 포함하는 하나의 문서를 가지고있다. 그러나 필자는 주제 모델링 시스템을 사용하여 어떤 문장이 더 관련이 있는지를 알 수 있는지 궁금합니다. 가능한가? 주제 모델링에 대한 모든 논문과 주제에서 보았 듯이이 시스템은 대개 매우 큰 코퍼스를 기반으로 작동합니다. 작은 데이터 세트에서 시스템이 얼마나 정확할 지 알고 싶습니다. 내 주된
gensim 라이브러리를 사용하여 LDA를 문서 세트에 적용하고 있습니다. gensim을 사용하면 용어 가중치가 무엇이든간에 LDA를 적용 할 수 있습니다. 내 질문은 원래의 LDA에 사용해야하는 가중치는 무엇입니까? 내가 올바르게 이해했다면 가중치는 용어 빈도 여야하지만 확실하지 않습니다.
Graber et al.의 결과를 재현하려고합니다. LDA가 다국어 코퍼스와 함께 사용될 때 주제 (예 : 상위 10 개)에 대한 가장 가능성있는 용어는 단일 언어에서 올 것이라고 나타냅니다. 그들의 논문은 here입니다. 이것은 IMO를 수행하는 데있어 합당한 건강 진단이지만 문제가 있습니다. 나는 사용하는 동일한 코퍼스 인 Europarl corpus을
VowpalWabbit.LDA를 사용하여 일부 문서 수집을위한 주제를 생성했습니다. 나는 각 단어와 각 주제에 속하는의 확률의 식별자를 참조하기로 Version 7.7.0
Min label:0.000000
Max label:1.000000
bits:18
0 pairs:
0 triples:
rank:0
lda:10
0 ngram:
내가 파이썬 책 건물 기계 학습 시스템 "의 주제 모델링/잠재 디리클레 할당 (LDA)에 튜토리얼을 따라하려고 너무 사라하지 않은 지금까지이 책과 주제 모델링의 첫 번째 부분에서 나에게 오류를 반환 :는 from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/
전체 : R 주제 모델링에서 초보자입니다. 3 주 전부터 시작되었습니다. 그래서 내 문제는 성공적으로 내 데이터를 자료, 문서 용어 매트릭스 및 LDA 기능으로 성공적으로 처리 할 수 있다는 것입니다. 내 의견으로 트윗과 약 460,000 건의 트윗이 있습니다. 그러나 결과에 만족스럽지 않습니다. 모든 주제에 대한 단어는 매우 유사합니다. > terms