LDAvis 패키지와 함께 mallet 주제 모델을 사용하려고합니다. topic.model 개체의 To do so you must extract a number of parameters : phi, theta, vocab, doc.length 및 term.frequency입니다. mallet 에는 이러한 매개 변수에 대한 언급이 없습니다. mallet.im
설명서 및 다양한 예제에서 본 것부터, 말렛의 데이터와 함께 사용되는 일반적인 worfklow는 일반적으로 데이터를 " 파이프 "를 반복하면서 일종의 반복자로 반복합니다. 데이터는 일부 CSV 파일에 일반적으로 저장됩니다. 두 개의 double 배열에서 기능 목록을 가져 오려고합니다. 하나의 배열은 실제 피처를 저장하며 크기 n x m (여기서 n은 피처의
나는 mallet R 패키지의 표준 신체 로딩 방법을 실행하기 위해 노력하고보다 구체적으로 다음 instance <- mallet.import(names(txt$CELEX), txt$TEXT, stoplist.file = "stopwords.en.txt", token.regexp = "\\p{L}[\\p{L}\\p{P}]+\\p{L}")
나는 것 같다
나는 POS 태깅을위한 CRF- 모델을 배우기 위해 Mallet Simple Tagger (http://mallet.cs.umass.edu/sequences.php)를 사용하려고 노력 해왔다. 내 컴퓨터가이 한 모델에 대해 1 주일 이상 학습하면서 걱정과 혼란에 시달리고 있습니다. ...
Punkte NN->Puppenk�nig NN(Puppenk�nig
교육 주제에 말렛을 사용하고 싶습니다. 내 데이터가 하나의 파일에 있으므로,이 단일 파일을 구성하는 방법에 대한 망치 문서를 연구합니다. 라인 섹션 당 하나의 파일, 하나 개의 인스턴스에서 Mallet website에서 은, 그것은 말했다 : [URL] [언어] [페이지의 텍스트 ...] 에서 이 경우 각 줄의 첫 번째 토큰 (쉼표로 구분 된 공백으로 구분
MALLET의 숙련 된 주제 모델을 토대로 한 문서의 주제를 추론하려고합니다. 나는 망치 해줄 ./mallet infer-topics --inferencer topic-model --input indata.mallet --output-doc-topics infered_docs 에서 다음 명령을 사용하고 있지만 캐스트 예외가 걸리면 :이 java.lang.C
최근 UMass에서 Mallet을 사용하기 시작했습니다. 스톱 워드에 명령이있는 것처럼 접두사/접미사와 수축을 명령으로 제거 할 수있는 방법이 있는지 살펴 보았지만 이에 대한 정보는 찾지 못했습니다. Mallet이이 작업을 수행 할 수 있다면 누군가 나를 올바른 방향으로 향하게 할 수 있습니까? 그리고 할 수 없다면, 당신이 할 수있는 다른 어떤 것이 있습
토픽 모델링을 실행하기 위해 20000 개의 뉴스 문서가 있습니다. 문서의 주제와 역동 성과 진화를보고 싶습니다. 내가 망치에 의해 토픽 모델링과 함께 다음과 같은 배치 스크립트를 사용하려고했지만 작동하지 않습니다. bydocafterseg2의 각 파일에 이상 #!/bin/bash
for filename in "/Users/JasonDou/code/int
저는 말렛에서 주제의 각 단어에 할당 된 가중치가 무엇인지를 파악하려고합니다. 나는 그것이 문서 발생 횟수의 일부 형태라고 가정합니다. 그러나 나는 그 인물이 어떻게 도착했는지 알아내는 데 어려움을 겪고있다. 내 모델에는 여러 주제에서 여러 단어가 있으며 각 주제마다 서로 다른 가중치가 할당되어 있으므로 숫자가 전체 자료에 대한 단어 수는 분명하지 않습니다