topic-modeling

3열

1답변

주제 모델 LDA를 적용해야하는 프로젝트를 진행 중입니다. 제 경우에는 각 문서가 짧기 때문에 Labeled LDA를 사용해야합니다. 나는이 분야에 많은 지식이 없기 때문에 LLDA를 내 데이터에 적용해야한다. 웹에서 검색 한 후 Stanford TMT에 LLDA 구현을 찾았습니다. 섹션 에서 알 수있는 점은 라벨이 부착 된 LDA 모델 교육입니다. 교육하

6열

3답변

gensim에서 LDA 주제의 전체 배포본을 인쇄하는 방법은 무엇입니까?

다음 코드의 lda.show_topics 모듈은 각 주제에 대한 상위 10 개 단어의 분포 만 인쇄하며, 전체 단어의 전체 분포를 어떻게 인쇄합니까? from gensim import corpora, models documents = ["Human machine interface for lab abc computer applications", "A s

13열

1답변

새 데이터에 대한 LDA 주제 예측

이 질문이 몇 번 전에 (hereand here) 요청되었을 수 있지만 아직 답을 얻지 못한 것 같습니다. 나는 이것이 의견에 의해 지적 된 질문의 이전 모호성 때문이라고 기대하고있다. 나는 의문의 여지가없는 질문에 다시 의문을 제기하여 사과를받는다면 사과드립니다. 나는 그 질문들이 새로운 답변을 보지 않을 것이라고 생각했습니다. 어쨌든, 나는 Latent

2열

1답변

는 대화식으로 패키지를 사용할 수 있지만 Rscript는 오류를 나타냅니다.

R에서 "topicmodels"패키지를 사용하고 있습니다. 대화식으로 모든 것이 잘 작동하지만, 정확히 동일한 명령을 Rscript을 사용하여 실행하면 오류가 발생합니다. 첫 번째 오류 (내가 풀린 문제)는 R이 is() 기능이 무엇인지 알지 못했다는 것입니다. 나는 "methods" 패키지를 가져 와서 이것을 해결했다. 분명히 Rscript은 대화식 R이

2열

1답변

LDA는 단어에 대해 하나 이상의 주제를 할당 할 수 있습니까?

Latent Dirichlet Allocation LDA에 대해 읽었으며 프로젝트에 적용하고 싶습니다. LDA가 두 개 이상의 단어에 주제를 할당 할 수 있는지 알 수 있습니까? 예를 들어 Article A는 "강둑"에 대해 이야기하고 B는 "금융에서 은행의 역할"에 대해 이야기합니다. 따라서 LDA는 "은행"이라는 단어를 두 개의 다른 주제에 잠재적으로

4열

1답변

topicmodels를 사용하기 위해 DocumentTermMatrix에서 단어를 제거하려고 시도했습니다

R (~ 1000 단어 인 ~ 6400 문서의 코퍼스에 100 개의 항목)에 topicmodels 패키지를 사용하려고합니다. 프로세스가 실행되고 종료되면 메모리가 부족해지기 때문에 생각합니다. 그래서 나는 lda() 함수가 입력으로 취하는 문서 용어 행렬의 크기를 줄이려고합니다. 내 문서 용어 행렬을 생성 할 때 minDocFreq 함수를 사용하여 할 수

2열

1답변

LDA 모델에서 Dirichlet 이전의 가중치 (알파)에서 가져온 다항식 매개 변수 (세타)는 어떻게됩니까?

저는 LDA (Latent Dirichlet Allocation) 모델을 요즘 공부하고있는 신입생입니다. 그러나 나는 문제에 직면했다. 알파에서 세타가 어떻게 나오나요? 세타 ~ 디렉터리 (알파) 내 짧은 이해에 따르면, 변수 세타는 길이 K와 벡터이며, 그 구성 요소는 문서의 주제 비율을 을 나타냅니다. 그리고 각 문서마다 theta가 서로 다릅니다. 그

1열

1답변

R 주제 모델링 : lda 모델 레이블 기능

2 개의 텍스트 문서에 대해 주제 모델을 작성하기 위해 LDA를 사용했습니다. A와 B는 A와 B가 매우 관련이 있으며, B는 지리 정보 과학과 관련이 있습니다. 그런 다음이 명령을 사용하여 LDA 훈련 : text<- c(A,B) # introduced above r <- Corpus(VectorSource(text)) # create corp

8열

2답변

주제 모델링과 문서 클러스터링 간의 관계는 무엇입니까?

주제 모델링은 컬렉션의 클러스터를 효과적으로 식별하는 문서 컬렉션의 주제 분산을 식별합니다. 주제 모델링이 문서 클러스터링을 수행하는 기술이라고 말하는 것이 맞습니까?

0열

2답변

mahout 0.7의 cvb 출력

hadoop 1.0.4에서 Mahout 0.7을 실행 중입니다. 주제 모델링 작업에 대한 Reuters 데이터 세트의 결과를보고 싶습니다. 그러나 Mahout에서 vectordump 도구를 사용하면 쓸모없는 결과를 얻게됩니다. 이 예제에서는 다음 지침 세트를 읽었습니다 : Run cvb in mahout 0.8. vectordump 도구를 실행 한 후 다음