2014-12-03 4 views

답변

0

20 개의 뉴스 그룹 데이터 세트에 대해 here을 시도해 볼 수 있습니다. 또한 어휘 파일도 포함되어 있지만 파일과 일치하지 않을 수 있으므로 모든 파일을 사용하는 것이 좋습니다.

희망이 도움이됩니다!

+0

본인은이 공식 웹 사이트를 알고 있지만 해당 데이터의 사전 처리로 인해 정보가 손실 될 수 있으며 그 결과도 불쾌합니다. 20news-bydate-matlab.tgz에서 Stopwords를 제외하고 나면, 남아있는 어휘에는 여전히 'sgi, cec, att ...'와 같은 단어가 포함됩니다. 그리고 나는 그들의 줄기로 단어를 바꿀 생각이 없습니다. –