2014-10-07 12 views
0

내 주제 모델링 (LDA)을 수행하기 위해 MALLET을 사용했습니다. Mallet dirichelet 매개 변수가 1보다 높습니다.

본인은 (키워드의 목록이 질문에 대한 중요하지 않다) 다음 결과가있는 데이터 집합의 20 개 주제를 발견했습니다 :

0 0.05013 list_of_topic_keywords_0 
1 0.06444 list_of_topic_keywords_1 
2 0.04946 list_of_topic_keywords_2 
3 0.14458 list_of_topic_keywords_3 
4 0.09248 list_of_topic_keywords_4 
5 0.04865 list_of_topic_keywords_5 
6 0.0977 list_of_topic_keywords_6 
7 0.0653 list_of_topic_keywords_7 
8 0.04557 list_of_topic_keywords_8 
9 0.07494 list_of_topic_keywords_9 
10 0.03577 list_of_topic_keywords_10 
11 0.02867 list_of_topic_keywords_11 
12 0.04184 list_of_topic_keywords_12 
13 0.05251 list_of_topic_keywords_13 
14 0.04231 list_of_topic_keywords_14 
15 0.03207 list_of_topic_keywords_15 
16 0.13064 list_of_topic_keywords_16 
17 0.04922 list_of_topic_keywords_17 
18 1.0515 list_of_topic_keywords_18 
19 0.04922 list_of_topic_keywords_19 

내가 읽었습니다 각 행의 두 번째 숫자 (예 : 0 행의 0.05013)는 dirichlet 매개 변수를 나타냅니다. 이 숫자가 주제의 중요성 (문서 전체에서의 존재)을 나타 냈습니다. 총계가 1로 합쳐져야한다고 생각했습니다.

그러나이 경우는 아닙니다. 1.0515의 값을 가진 주제 18만을 살펴보십시오.

누군가이 매개 변수가 실제로 무엇을 나타내며 특정 주제에 대해 1보다 큰 이유를 설명 할 수 있습니까?

미리 감사드립니다.

답변

2

Dirichlet에 대한 매개 변수가 긍정적 인 실제로 제한되기 때문에. 그들은 비율이 아닙니다. 샘플 Dirichlet의은 비율입니다 (단방향을 지원합니다).

첫 번째 장소는 확인 : https://en.wikipedia.org/wiki/Dirichlet_distribution

크기는 상대적 중요성을 반영 않습니다. Dirichlet 매개 변수에 대한 합계로 특정 매개 변수를 정규화하면 비율의 예상 값을 얻을 수 있지만 이것이 비율이라고 생각하는 실수는하지 마십시오.