mallet

    2

    1답변

    LDAvis 패키지와 함께 mallet 주제 모델을 사용하려고합니다. topic.model 개체의 To do so you must extract a number of parameters : phi, theta, vocab, doc.length 및 term.frequency입니다. mallet 에는 이러한 매개 변수에 대한 언급이 없습니다. mallet.im

    0

    1답변

    설명서 및 다양한 예제에서 본 것부터, 말렛의 데이터와 함께 사용되는 일반적인 worfklow는 일반적으로 데이터를 " 파이프 "를 반복하면서 일종의 반복자로 반복합니다. 데이터는 일부 CSV 파일에 일반적으로 저장됩니다. 두 개의 double 배열에서 기능 목록을 가져 오려고합니다. 하나의 배열은 실제 피처를 저장하며 크기 n x m (여기서 n은 피처의

    2

    1답변

    나는 mallet R 패키지의 표준 신체 로딩 방법을 실행하기 위해 노력하고보다 구체적으로 다음 instance <- mallet.import(names(txt$CELEX), txt$TEXT, stoplist.file = "stopwords.en.txt", token.regexp = "\\p{L}[\\p{L}\\p{P}]+\\p{L}") 나는 것 같다

    2

    1답변

    나는 POS 태깅을위한 CRF- 모델을 배우기 위해 Mallet Simple Tagger (http://mallet.cs.umass.edu/sequences.php)를 사용하려고 노력 해왔다. 내 컴퓨터가이 한 모델에 대해 1 주일 이상 학습하면서 걱정과 혼란에 시달리고 있습니다. ... Punkte NN->Puppenk�nig NN(Puppenk�nig

    1

    2답변

    교육 주제에 말렛을 사용하고 싶습니다. 내 데이터가 하나의 파일에 있으므로,이 단일 파일을 구성하는 방법에 대한 망치 문서를 연구합니다. 라인 섹션 당 하나의 파일, 하나 개의 인스턴스에서 Mallet website에서 은, 그것은 말했다 : [URL] [언어] [페이지의 텍스트 ...] 에서 이 경우 각 줄의 첫 번째 토큰 (쉼표로 구분 된 공백으로 구분

    5

    1답변

    MALLET의 숙련 된 주제 모델을 토대로 한 문서의 주제를 추론하려고합니다. 나는 망치 해줄 ./mallet infer-topics --inferencer topic-model --input indata.mallet --output-doc-topics infered_docs 에서 다음 명령을 사용하고 있지만 캐스트 예외가 걸리면 :이 java.lang.C

    1

    1답변

    최근 UMass에서 Mallet을 사용하기 시작했습니다. 스톱 워드에 명령이있는 것처럼 접두사/접미사와 수축을 명령으로 제거 할 수있는 방법이 있는지 살펴 보았지만 이에 대한 정보는 찾지 못했습니다. Mallet이이 작업을 수행 할 수 있다면 누군가 나를 올바른 방향으로 향하게 할 수 있습니까? 그리고 할 수 없다면, 당신이 할 수있는 다른 어떤 것이 있습

    0

    1답변

    토픽 모델링을 실행하기 위해 20000 개의 뉴스 문서가 있습니다. 문서의 주제와 역동 성과 진화를보고 싶습니다. 내가 망치에 의해 토픽 모델링과 함께 다음과 같은 배치 스크립트를 사용하려고했지만 작동하지 않습니다. bydocafterseg2의 각 파일에 이상 #!/bin/bash for filename in "/Users/JasonDou/code/int

    1

    1답변

    --use-ngrams true 옵션을 사용하여 망치를 실행하고 싶지만 제대로 작동하지 않는 것 같습니다. bin\mallet import-file --input ovary.txt --output ovary2.mallet --keep-sequence-bigrams --remove-stopwords bin\mallet train-topics --input

    2

    1답변

    저는 말렛에서 주제의 각 단어에 할당 된 가중치가 무엇인지를 파악하려고합니다. 나는 그것이 문서 발생 횟수의 일부 형태라고 가정합니다. 그러나 나는 그 인물이 어떻게 도착했는지 알아내는 데 어려움을 겪고있다. 내 모델에는 여러 주제에서 여러 단어가 있으며 각 주제마다 서로 다른 가중치가 할당되어 있으므로 숫자가 전체 자료에 대한 단어 수는 분명하지 않습니다