내 주제 모델링 (LDA)을 수행하기 위해 MALLET을 사용했습니다. Mallet dirichelet 매개 변수가 1보다 높습니다.
본인은 (키워드의 목록이 질문에 대한 중요하지 않다) 다음 결과가있는 데이터 집합의 20 개 주제를 발견했습니다 :0 0.05013 list_of_topic_keywords_0
1 0.06444 list_of_topic_keywords_1
2 0.04946 list_of_topic_keywords_2
3 0.14458 list_of_topic_keywords_3
4 0.09248 list_of_topic_keywords_4
5 0.04865 list_of_topic_keywords_5
6 0.0977 list_of_topic_keywords_6
7 0.0653 list_of_topic_keywords_7
8 0.04557 list_of_topic_keywords_8
9 0.07494 list_of_topic_keywords_9
10 0.03577 list_of_topic_keywords_10
11 0.02867 list_of_topic_keywords_11
12 0.04184 list_of_topic_keywords_12
13 0.05251 list_of_topic_keywords_13
14 0.04231 list_of_topic_keywords_14
15 0.03207 list_of_topic_keywords_15
16 0.13064 list_of_topic_keywords_16
17 0.04922 list_of_topic_keywords_17
18 1.0515 list_of_topic_keywords_18
19 0.04922 list_of_topic_keywords_19
내가 읽었습니다 각 행의 두 번째 숫자 (예 : 0 행의 0.05013)는 dirichlet 매개 변수를 나타냅니다. 이 숫자가 주제의 중요성 (문서 전체에서의 존재)을 나타 냈습니다. 총계가 1로 합쳐져야한다고 생각했습니다.
그러나이 경우는 아닙니다. 1.0515의 값을 가진 주제 18만을 살펴보십시오.
누군가이 매개 변수가 실제로 무엇을 나타내며 특정 주제에 대해 1보다 큰 이유를 설명 할 수 있습니까?
미리 감사드립니다.