topic-modeling

    3

    1답변

    주제 모델 LDA를 적용해야하는 프로젝트를 진행 중입니다. 제 경우에는 각 문서가 짧기 때문에 Labeled LDA를 사용해야합니다. 나는이 분야에 많은 지식이 없기 때문에 LLDA를 내 데이터에 적용해야한다. 웹에서 검색 한 후 Stanford TMT에 LLDA 구현을 찾았습니다. 섹션 에서 알 수있는 점은 라벨이 부착 된 LDA 모델 교육입니다. 교육하

    6

    3답변

    다음 코드의 lda.show_topics 모듈은 각 주제에 대한 상위 10 개 단어의 분포 만 인쇄하며, 전체 단어의 전체 분포를 어떻게 인쇄합니까? from gensim import corpora, models documents = ["Human machine interface for lab abc computer applications", "A s

    13

    1답변

    이 질문이 몇 번 전에 (hereand here) 요청되었을 수 있지만 아직 답을 얻지 못한 것 같습니다. 나는 이것이 의견에 의해 지적 된 질문의 이전 모호성 때문이라고 기대하고있다. 나는 의문의 여지가없는 질문에 다시 의문을 제기하여 사과를받는다면 사과드립니다. 나는 그 질문들이 새로운 답변을 보지 않을 것이라고 생각했습니다. 어쨌든, 나는 Latent

    2

    1답변

    R에서 "topicmodels"패키지를 사용하고 있습니다. 대화식으로 모든 것이 잘 작동하지만, 정확히 동일한 명령을 Rscript을 사용하여 실행하면 오류가 발생합니다. 첫 번째 오류 (내가 풀린 문제)는 R이 is() 기능이 무엇인지 알지 못했다는 것입니다. 나는 "methods" 패키지를 가져 와서 이것을 해결했다. 분명히 Rscript은 대화식 R이

    2

    1답변

    Latent Dirichlet Allocation LDA에 대해 읽었으며 프로젝트에 적용하고 싶습니다. LDA가 두 개 이상의 단어에 주제를 할당 할 수 있는지 알 수 있습니까? 예를 들어 Article A는 "강둑"에 대해 이야기하고 B는 "금융에서 은행의 역할"에 대해 이야기합니다. 따라서 LDA는 "은행"이라는 단어를 두 개의 다른 주제에 잠재적으로

    4

    1답변

    R (~ 1000 단어 인 ~ 6400 문서의 코퍼스에 100 개의 항목)에 topicmodels 패키지를 사용하려고합니다. 프로세스가 실행되고 종료되면 메모리가 부족해지기 때문에 생각합니다. 그래서 나는 lda() 함수가 입력으로 취하는 문서 용어 행렬의 크기를 줄이려고합니다. 내 문서 용어 행렬을 생성 할 때 minDocFreq 함수를 사용하여 할 수

    2

    1답변

    저는 LDA (Latent Dirichlet Allocation) 모델을 요즘 공부하고있는 신입생입니다. 그러나 나는 문제에 직면했다. 알파에서 세타가 어떻게 나오나요? 세타 ~ 디렉터리 (알파) 내 짧은 이해에 따르면, 변수 세타는 길이 K와 벡터이며, 그 구성 요소는 문서의 주제 비율을 을 나타냅니다. 그리고 각 문서마다 theta가 서로 다릅니다. 그

    1

    1답변

    2 개의 텍스트 문서에 대해 주제 모델을 작성하기 위해 LDA를 사용했습니다. A와 B는 A와 B가 매우 관련이 있으며, B는 지리 정보 과학과 관련이 있습니다. 그런 다음이 명령을 사용하여 LDA 훈련 : text<- c(A,B) # introduced above r <- Corpus(VectorSource(text)) # create corp

    8

    2답변

    주제 모델링은 컬렉션의 클러스터를 효과적으로 식별하는 문서 컬렉션의 주제 분산을 식별합니다. 주제 모델링이 문서 클러스터링을 수행하는 기술이라고 말하는 것이 맞습니까?

    0

    2답변

    hadoop 1.0.4에서 Mahout 0.7을 실행 중입니다. 주제 모델링 작업에 대한 Reuters 데이터 세트의 결과를보고 싶습니다. 그러나 Mahout에서 vectordump 도구를 사용하면 쓸모없는 결과를 얻게됩니다. 이 예제에서는 다음 지침 세트를 읽었습니다 : Run cvb in mahout 0.8. vectordump 도구를 실행 한 후 다음