0
토픽 모델링을 실행하기 위해 20000 개의 뉴스 문서가 있습니다.한 번에 20000 개의 문서에서 주제 모델을 실행하는 방법은 무엇입니까?
문서의 주제와 역동 성과 진화를보고 싶습니다. 내가 망치에 의해 토픽 모델링과 함께 다음과 같은 배치 스크립트를 사용하려고했지만 작동하지 않습니다. bydocafterseg2
의 각 파일에 이상
#!/bin/bash
for filename in "/Users/JasonDou/code/internet_finance/bydocafterseg2/"*; do
[ -e "$filename" ] || continue
./bin/mallet import-dir --input "$filename" \
--output bydoc-input.mallet --keep-sequence --remove-stopwords
done
위의 뜻을 목록으로 반복 :
#!/bin/bash
for filename in /Users/JasonDou/code/internet_finance/bydocafterseg2; do
./bin/mallet import-dir --input /Users/JasonDou/code/internet_finance/bydocafterseg2/159047443.txt --output bydoc-input.mallet --keep-sequence --remove-stopwords
done
도움이됩니다. 후속 질문이 있습니다 : 출력 파일의 이름을 위의 파일 이름으로 어떻게 지정할 수 있습니까? "$ filename"-input.mallet? – Jason
'--output "$ filename-input.mallet"'? – andlrc