topic-modeling

0열

2답변

자바 API로 토픽 모델링을 시도하고 있습니다. 패키지와 함께 제공되는 편리한 예제가 있습니다. 그러나 내 데이터의 크기가 훨씬 크기 때문에 모든 파일을 하나의 파일에서 가져 오는 것은 비현실적이라고 생각합니다. 다른 MALLET 질문에 링크 된 파워 포인트 프레젠테이션을 살펴본 결과 예제 Java 코드에서 사용 된 CsvIterator 대신 사용할 수 있

1열

1답변

LDA 모델 주제 단어의 모든 단어 뒤의 숫자 의미는 무엇입니까?

LDA 모델을 사용하여 모델을 트레이닝 할 때 LDA 모델에 속하는 일반 항목 세트의 결과를 얻습니다. 주제의 각 단어 뒤에 숫자가 있습니다. 예 : topic - 0.004*great + 0.004*good + 0.004*like + 0.003*well + 0.003*best + 0.003*better 이 숫자의 의미는 무엇입니까?

4열

2답변

Mallet에서 csvIterator의 매개 변수는 무엇을 의미합니까?

저는 말렛 주제 모델링 샘플 코드를 사용하고 있으며 잘 실행되지만이 문장의 매개 변수가 실제로 무엇을 의미하는지 알고 싶습니다. documentation에서 instances.addThruPipe(new CsvIterator(new FileReader(dataFile), "(\\w+)\\s+(\\w+)\\s+(.*)",

2열

1답변

일부 외부 tf-idf 행렬 및 용어 목록에서 gensim을 사용하여 LDA 모델 교육

문서의 용어 및 열에 대한 행이 이미있는 tf-idf 행렬이 있습니다. 이제 주어진 조건 - 문서 행렬을 사용하여 LDA 모델을 학습하고 싶습니다. 첫 번째 단계는 gensim.matutils.Dense2Corpus을 사용하여 매트릭스를 코퍼스 형식으로 변환하는 것 같습니다. 그러나 id2word 매개 변수를 구성하는 방법은 무엇입니까? 나는 용어들 (#t

1열

2답변

파이썬에서 토픽 모델링을위한 LDA

저는 파이썬을 처음 접했고 LDA 패키지 (https://pypi.python.org/pypi/lda)를 사용하려고합니다. 각 타이틀과 관련된 주제 목록이 있습니다. 그러나, 나는 첫 번째 장소에서 패키지를 사용하는 방법에 대한 단서가 없습니다. 패키지 설명서를 읽었지만 막연합니다. 입력 구조와 모든 것에 대한 정보는 없습니다. 전에 그것을 사용한 사람이

0열

1답변

한 번에 20000 개의 문서에서 주제 모델을 실행하는 방법은 무엇입니까?

토픽 모델링을 실행하기 위해 20000 개의 뉴스 문서가 있습니다. 문서의 주제와 역동 성과 진화를보고 싶습니다. 내가 망치에 의해 토픽 모델링과 함께 다음과 같은 배치 스크립트를 사용하려고했지만 작동하지 않습니다. bydocafterseg2의 각 파일에 이상 #!/bin/bash for filename in "/Users/JasonDou/code/int

4열

1답변

주제 모델링 : 건물의 주제 용어

의 미리 정의 된 목록을 기반으로 나는 R의 주제 모델에 일의 몇 가지를 썼다 다음과 같은 것이 내가 할 수 있는지 궁금 해요 : 내가 좋아하는 것 특정 용어로 사전 정의 된 용어 목록을 기반으로 주제를 작성합니다. 이미 문서 ngrams (RWeka)를 식별하고 다음 코드를 사용하여 내 termlist에서 발생 만 조건을 계산하기 위해이 목록을했다 : 이

3열

1답변

Mallet - 토픽 모델링 - Stopwords 오류

토픽 모델링을 위해 MALLET을 사용할 때 여분의 불용어 목록과 기본 불용어 목록을 추가하지만 일부 정지 단어는 항목 모델에 표시됩니다. 예 : "ın", "ıf", "ıt". 이 불용어가 주제 모델에 나타나지 않도록하려면 어떻게해야합니까? 주제 모델은 다음과 같습니다. 시간 방 문 집 사람들의 눈을 일 밤 여성의 날은 집에 여자 얼굴 어머니의 음성 차를

1열

1답변

말렛 라이브러리를 사용하는 주제 모델링의 추정 함수는 무엇입니까

주제 모델링에 새로운 항목이고 말렛 라이브러리를 사용하려고하는데 질문이 있습니다. 일부 인스턴스에 대한 주제를 찾기 위해 LDA의 간단한 병렬 스레드 구현을 사용하고 있습니다. 내 질문은 ParallelTopicModel의 예상 기능은 무엇입니까? 나는 API에서 검색했으나 설명이 없습니다. 또한 this tutorial을 읽었습니다. 누군가이 기능이 무엇

0열

1답변

Mallet 토픽 모델링의 숫자 유지

토픽 모델링을 위해 Mallet을 사용하고 있습니다. 입력 텍스트에있는 많은 양의 단어에는 문자와 숫자가 모두 포함됩니다. 예 : A54, D892. 나는 Mallet이 자릿수를 자동으로 제거하고 단어에있는 문자 만 유지한다는 것을 알게되었습니다. 텍스트 파일을 가져올 때 --remove-stopwords 옵션을 사용하지 않아도됩니다. 누구든지이 문제를 해