2016-06-06 6 views
0

토픽 모델링을 실행하기 위해 20000 개의 뉴스 문서가 있습니다.한 번에 20000 개의 문서에서 주제 모델을 실행하는 방법은 무엇입니까?

문서의 주제와 역동 성과 진화를보고 싶습니다. 내가 망치에 의해 토픽 모델링과 함께 다음과 같은 배치 스크립트를 사용하려고했지만 작동하지 않습니다. bydocafterseg2의 각 파일에 이상

#!/bin/bash 
for filename in "/Users/JasonDou/code/internet_finance/bydocafterseg2/"*; do 
    [ -e "$filename" ] || continue 
    ./bin/mallet import-dir --input "$filename" \ 
     --output bydoc-input.mallet --keep-sequence --remove-stopwords 
done 

위의 뜻을 목록으로 반복 :

#!/bin/bash 
for filename in /Users/JasonDou/code/internet_finance/bydocafterseg2; do 
    ./bin/mallet import-dir --input /Users/JasonDou/code/internet_finance/bydocafterseg2/159047443.txt --output bydoc-input.mallet --keep-sequence --remove-stopwords 
done 

답변

1

당신은 별표가 누락되었습니다. 모든 파일을 .txt 개로 바꿀 수 있습니다. "bydocafterseg2/"*".txt"

+0

도움이됩니다. 후속 질문이 있습니다 : 출력 파일의 이름을 위의 파일 이름으로 어떻게 지정할 수 있습니까? "$ filename"-input.mallet? – Jason

+0

'--output "$ filename-input.mallet"'? – andlrc