교육 주제에 말렛을 사용하고 싶습니다. 내 데이터가 하나의 파일에 있으므로,이 단일 파일을 구성하는 방법에 대한 망치 문서를 연구합니다. 라인 섹션 당 하나의 파일, 하나 개의 인스턴스에서 Mallet website에서말렛 구성 파일의 널 소스
은, 그것은 말했다 :
[URL] [언어] [페이지의 텍스트 ...]
에서 이 경우 각 줄의 첫 번째 토큰 (쉼표로 구분 된 공백으로 구분됨)은 인스턴스 이름이되고 두 번째 토큰은 레이블이되고 줄의 모든 추가 텍스트는 일련의 단어 토큰으로 해석됩니다.
그래서 위의 인용문에 따르면, 나는 이런 식으로 내 하나의 파일 생성 :
127 en some text here...
982 en some text here...
1003 en some text here...
...
다음이 하나의 파일 가져 오기 : 그 후
bin\mallet import-file --input data.txt --output data.mallet --keep-sequence
를, 내가 훈련 3 개 주제 :
bin\mallet train-topics --input data.mallet --num-topics 3 --output-doc-topics data_composition.txt --word-topic-counts-file data_wcounts.txt
그러나질문은 이제
#doc source topic proportion ...
0 null-source 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317
: 왜 망치 인쇄 null-source
이 구성 파일을 수행, 그것은 다음과 같은 구조를 가지고? 소스 제목 아래에 URL (즉, 내 케이스의 ID)을 인쇄하고 싶습니다.
편집 :
#doc source topic proportion ...
0 127 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317
1 982 ... (topic probabilities) ...
2 1003 ... (topic probabilities) ...
미리 감사 :
나는 이런 식으로 뭔가를 원한다!
ur 답장을 보내 주셔서 감사합니다. 회신에 대해서는 숫자 (1,2,3, 등)가 말렛에서 예상 한 URL입니다. 다시 말해, 말렛은 숫자가 URL이라는 것을 어떻게 알 수 있습니까? 아십니까? @jknappen –
"composition"파일의 첫 번째 열에있는 숫자는 0부터 세는 줄 번호입니다. 둘째 열에 나타나기 위해 문서 URL과 아무런 관련이 없습니다. – jknappen
나는 그 번호를 무작위로 (나는 줄 번호가 아님) 나에게 그 번호를 주었다. 좀 더 명확히하기 위해 편집 된 게시물에주의하십시오. @jknappen –