2017-11-14 35 views
0

나는 짧은 주제에 대한 주제 모델링을 다루고 있으며 BTM (biterm topic model), WNTM (word network topic model) 및 LDA (LF-LDA).WNTM, BTM 및 LF-LDA와 같은 짧은 텍스트에 대한 주제 모델은 문서 용어 매트릭스와 같은 것을 생성합니까?

저는 기존의 LDA (R 패키지 topicmodels을 사용하여 구현했습니다)에서 텍스트 문서의 구조화되지 않은 모양이 Document-Term matrix (DTM)의 구성을 통해 컴퓨터가 읽을 수있는 형식으로 변환된다는 것을 알고 있습니다.

DTM과 비슷한 매트릭스를 생성하는 경우 위에서 언급 한 모델이 비슷한 구현 방식을 사용하는지 궁금합니다. 누구는 그것을 압니까? 불행히도 원본 문서를 읽음으로써 그 정보를 찾을 수 없었습니다.

미리 감사드립니다.

+1

질문은 프로그래밍 문제는 아니지만 모델 및 구조에 대한 일반적인 질문이므로 [Crossvalidated] (http://stats.stackexchange.com) 대신에 문의하는 것이 좋습니다. 내가 아는 한, LDA 또는 CTM (VEM 또는 Gibbs) 이외의 다른 모델을 다루는 R에서는 주제 모델링을 구현하지 않습니다. 상응하는 패키지는'topicmodels','lda' 또는'text2vec'입니다. 각각 다른 약간의 샘플링/추정 알고리즘을 사용합니다. –

답변

0

BTM 및 TKM (짧은 텍스트의 경우 좋음 - https://github.com/JohnTailor/tkm)은 DTM (문서 용어 매트릭스)을 구성하지 않습니다. WNTM이 하나를 만들 수 있습니다. 나는 LF-LDA를 모른다. BTM, WNTM 및 TKM은 슬라이딩 윈도우를 사용하여 단어의 위치를 ​​고려합니다. "집은 흰색"이고 "백악관은"특정 설정에 따라 다른 결과를 줄 수 있습니다. DTM은 어순을 포착하지 않습니다. 위의 예들 때문에 두 가지 모두 동일한 DTM을 제공 할 것입니다. WNTM은 주제 - 문서 배포를 추론 할 때 DTM의 이점을 누릴 수 있지만 매개 변수 (단어 - 주제)를 추론 할 때 유용하지 않을 수 있습니다.