WEKA SpamAssassin을 사용한 전처리 stringtowordvector를 사용한 데이터 세트

현재 순진한 베이 즈 분류 방법을 사용하여 이메일을 스팸 또는 분류로 분류하는 프로젝트를 진행 중입니다. 필자는 WEKA와 잘 알려진 SpamAssassin 데이터 세트를 사용하고 있습니다. (데이터 세트는 여기에서 찾을 수 있습니다 : http://www.csmining.org/index.php/spam-assassin-datasets.html).WEKA SpamAssassin을 사용한 전처리 stringtowordvector를 사용한 데이터 세트

저는 WEKA에 대한 경험이 거의 없지만 데이터를 전처리 할 때 stringtowordvector 필터를 사용해야한다고 들었습니다. 나는 이것을하는 방법에 관해서 매우 혼란 스럽다. SpamAssassin 데이터와 WEKA를 사용하는 사람이 있습니까? 누구든지 사전 처리를 돕는 도움이되는 링크가 있습니까?

출처

2013-04-21 user1057137

다음 자습서 Text Classification and Clustering with WEKA을 사용하십시오. 텍스트 데이터를 숫자 벡터로 변경해야 StringToWordVector 필터가이 작업을 수행합니다.

출처

2013-04-21 21:26:21

WEKA SpamAssassin을 사용한 전처리 stringtowordvector를 사용한 데이터 세트

답변

관련 문제