1

교육 주제에 말렛을 사용하고 싶습니다. 내 데이터가 하나의 파일에 있으므로,이 단일 파일을 구성하는 방법에 대한 망치 문서를 연구합니다. 라인 섹션 당 하나의 파일, 하나 개의 인스턴스에서 Mallet website에서말렛 구성 파일의 널 소스

은, 그것은 말했다 :

[URL] [언어] [페이지의 텍스트 ...]

에서 이 경우 각 줄의 첫 번째 토큰 (쉼표로 구분 된 공백으로 구분됨)은 인스턴스 이름이되고 두 번째 토큰은 레이블이되고 줄의 모든 추가 텍스트는 일련의 단어 토큰으로 해석됩니다.

그래서 위의 인용문에 따르면, 나는 이런 식으로 내 하나의 파일 생성 :

127 en some text here... 
982 en some text here... 
1003 en some text here... 
... 

다음이 하나의 파일 가져 오기 : 그 후

bin\mallet import-file --input data.txt --output data.mallet --keep-sequence 

를, 내가 훈련 3 개 주제 :

bin\mallet train-topics --input data.mallet --num-topics 3 --output-doc-topics data_composition.txt --word-topic-counts-file data_wcounts.txt 

그러나질문은 이제

#doc source topic proportion ...  
0 null-source 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 

: 왜 망치 인쇄 null-source이 구성 파일을 수행, 그것은 다음과 같은 구조를 가지고? 소스 제목 아래에 URL (즉, 내 케이스의 ID)을 인쇄하고 싶습니다.

편집 :

#doc source topic proportion ...  
0  127 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 
1  982 ... (topic probabilities) ... 
2  1003 ... (topic probabilities) ... 

미리 감사 :

나는 이런 식으로 뭔가를 원한다!

답변

0

입력 파일의 첫 번째 열에 URL이 들어 있지 않습니다. 시도

file://0 

0 대신. http://mallet.cs.umass.edu/download.php

망치 인스턴스는 "이름"이 있고 "소스"필드 : 여기에 최신 말렛 버전

+0

ur 답장을 보내 주셔서 감사합니다. 회신에 대해서는 숫자 (1,2,3, 등)가 말렛에서 예상 한 URL입니다. 다시 말해, 말렛은 숫자가 URL이라는 것을 어떻게 알 수 있습니까? 아십니까? @jknappen –

+0

"composition"파일의 첫 번째 열에있는 숫자는 0부터 세는 줄 번호입니다. 둘째 열에 나타나기 위해 문서 URL과 아무런 관련이 없습니다. – jknappen

+0

나는 그 번호를 무작위로 (나는 줄 번호가 아님) 나에게 그 번호를 주었다. 좀 더 명확히하기 위해 편집 된 게시물에주의하십시오. @jknappen –

0

봅니다 업그레이드. 이전 버전에서는 --output-doc-topics이 원본을 인쇄했습니다. 현재 stable 버전 인 2.0.8이 표시하려는 필드 인 이름을 인쇄합니다.

이 버전은 기본적으로 각 항목에 대해 하나의 열이있는 항목 비율의 "밀집된"표현으로되어 있습니다.