topic-modeling

    0

    2답변

    자바 API로 토픽 모델링을 시도하고 있습니다. 패키지와 함께 제공되는 편리한 예제가 있습니다. 그러나 내 데이터의 크기가 훨씬 크기 때문에 모든 파일을 하나의 파일에서 가져 오는 것은 비현실적이라고 생각합니다. 다른 MALLET 질문에 링크 된 파워 포인트 프레젠테이션을 살펴본 결과 예제 Java 코드에서 사용 된 CsvIterator 대신 사용할 수 있

    1

    1답변

    LDA 모델을 사용하여 모델을 트레이닝 할 때 LDA 모델에 속하는 일반 항목 세트의 결과를 얻습니다. 주제의 각 단어 뒤에 숫자가 있습니다. 예 : topic - 0.004*great + 0.004*good + 0.004*like + 0.003*well + 0.003*best + 0.003*better 이 숫자의 의미는 무엇입니까?

    4

    2답변

    저는 말렛 주제 모델링 샘플 코드를 사용하고 있으며 잘 실행되지만이 문장의 매개 변수가 실제로 무엇을 의미하는지 알고 싶습니다. documentation에서 instances.addThruPipe(new CsvIterator(new FileReader(dataFile), "(\\w+)\\s+(\\w+)\\s+(.*)",

    2

    1답변

    문서의 용어 및 열에 대한 행이 이미있는 tf-idf 행렬이 있습니다. 이제 주어진 조건 - 문서 행렬을 사용하여 LDA 모델을 학습하고 싶습니다. 첫 번째 단계는 gensim.matutils.Dense2Corpus을 사용하여 매트릭스를 코퍼스 형식으로 변환하는 것 같습니다. 그러나 id2word 매개 변수를 구성하는 방법은 무엇입니까? 나는 용어들 (#t

    1

    2답변

    저는 파이썬을 처음 접했고 LDA 패키지 (https://pypi.python.org/pypi/lda)를 사용하려고합니다. 각 타이틀과 관련된 주제 목록이 있습니다. 그러나, 나는 첫 번째 장소에서 패키지를 사용하는 방법에 대한 단서가 없습니다. 패키지 설명서를 읽었지만 막연합니다. 입력 구조와 모든 것에 대한 정보는 없습니다. 전에 그것을 사용한 사람이

    0

    1답변

    토픽 모델링을 실행하기 위해 20000 개의 뉴스 문서가 있습니다. 문서의 주제와 역동 성과 진화를보고 싶습니다. 내가 망치에 의해 토픽 모델링과 함께 다음과 같은 배치 스크립트를 사용하려고했지만 작동하지 않습니다. bydocafterseg2의 각 파일에 이상 #!/bin/bash for filename in "/Users/JasonDou/code/int

    4

    1답변

    의 미리 정의 된 목록을 기반으로 나는 R의 주제 모델에 일의 몇 가지를 썼다 다음과 같은 것이 내가 할 수 있는지 궁금 해요 : 내가 좋아하는 것 특정 용어로 사전 정의 된 용어 목록을 기반으로 주제를 작성합니다. 이미 문서 ngrams (RWeka)를 식별하고 다음 코드를 사용하여 내 termlist에서 발생 만 조건을 계산하기 위해이 목록을했다 : 이

    3

    1답변

    토픽 모델링을 위해 MALLET을 사용할 때 여분의 불용어 목록과 기본 불용어 목록을 추가하지만 일부 정지 단어는 항목 모델에 표시됩니다. 예 : "ın", "ıf", "ıt". 이 불용어가 주제 모델에 나타나지 않도록하려면 어떻게해야합니까? 주제 모델은 다음과 같습니다. 시간 방 문 집 사람들의 눈을 일 밤 여성의 날은 집에 여자 얼굴 어머니의 음성 차를

    1

    1답변

    주제 모델링에 새로운 항목이고 말렛 라이브러리를 사용하려고하는데 질문이 있습니다. 일부 인스턴스에 대한 주제를 찾기 위해 LDA의 간단한 병렬 스레드 구현을 사용하고 있습니다. 내 질문은 ParallelTopicModel의 예상 기능은 무엇입니까? 나는 API에서 검색했으나 설명이 없습니다. 또한 this tutorial을 읽었습니다. 누군가이 기능이 무엇

    0

    1답변

    토픽 모델링을 위해 Mallet을 사용하고 있습니다. 입력 텍스트에있는 많은 양의 단어에는 문자와 숫자가 모두 포함됩니다. 예 : A54, D892. 나는 Mallet이 자릿수를 자동으로 제거하고 단어에있는 문자 만 유지한다는 것을 알게되었습니다. 텍스트 파일을 가져올 때 --remove-stopwords 옵션을 사용하지 않아도됩니다. 누구든지이 문제를 해