2016-08-11 7 views
0

필자가 아는 한, LDA 모델링을위한 주제는 Python/R에서 수정해야합니다. 그러나 결과는 다음과 같이 나타납니다. topic=10 문서, 9 개의 주제는 모두 '건강'에 관한 것이고이 문서에 대한 주제의 수는 실제로 2입니다. 어떻게하면 각 주제의 키워드를 검토하지 않고도 실제로 구별되는 실제 주제를 직접 계산할 수 있습니까?Python/R에서 LDA 이후 고유 주제 수 찾기

P. 나는 인터넷 검색을했고 Theme에 의해 어휘 목록 (Word Banks)이 있다는 것을 배웠고 단어 목록에 따라 주제와 각 주제를 짝을 지을 수 있었다. 여러 주제가 동일한 주제에 속하면 하나의 주제로 결합 할 수 있습니다. 노력할만한 가치가있는 접근법이라고 생각합니다. 더 똑똑한 아이디어를 찾고 있습니다. 감사합니다.

답변

1

먼저 LDA가 식별 한 주제가 실제 의미 론적 주제와 일치한다고 가정합니다.이 가정에 대해 매우 신중하게 생각하고 해당 방식으로 해석하려는 주제에 지정된 단어와 단어를 살펴보고, LDA는 종종 임의의 추가 단어가 할당되어 두 개 이상의 실제 주제를 하나의 주제로 병합 할 수 있으며 (특히 전체 주제가 거의 없음) 의미있는 의미는 아닐 수도 있습니다 ('정크'주제).

다음 질문에 답하면 "주제가 다른 수의 아이디어"가 전혀 명확하지 않습니다. 필자가 본 대부분의 작업은 문서 임계 비율이 "중요"한지를 결정하기 위해 간단한 임계 값을 사용합니다.

문서에 나타나는 해당 주제에 할당 된 단어의 비율을 살펴 보는 것이 더 원칙적입니다. 평균보다 "상당히"높으면 주제가 문서에서 중요하지만 다시 다소 임의적 인 문턱 값. 나는 여기에 의미있는 선택을하기 위해 어떤 것도 모범이 될 수는 없다고 생각한다.

이전에 문서 주제를 설정 한 방법 (일반적으로 베타)에 따라 일부 문서에만 집중할 수는 있지만 (경우에 따라) 혼합. 이 경우 "별개의 주제 수"가 덜 의미가 있습니다.

P. 응용 프로그램에서 의미있는 단어 목록을 사용하는 것은 관심있는 후보 주제를 식별하는 나쁜 방법이 아닙니다. 모델에 여러 주제가있는 경우 특히 유용합니다. (

PPS : LDA는 적은 수의 단어로 더 적은 수의 단어를 사용하기 때문에 합리적인 수의 문서가 있어야합니다. PPPS : (Mallet LDA 구현에서 제공하는) 매개 변수 최적화를 통해 더 많은 수의 주제로 갈 수 있습니다. 이는 모델에 적합한 주제를 효과적으로 선택합니다. "추가"주제