2013-04-21 1 views
0

현재 순진한 베이 즈 분류 방법을 사용하여 이메일을 스팸 또는 분류로 분류하는 프로젝트를 진행 중입니다. 필자는 WEKA와 잘 알려진 SpamAssassin 데이터 세트를 사용하고 있습니다. (데이터 세트는 여기에서 찾을 수 있습니다 : http://www.csmining.org/index.php/spam-assassin-datasets.html).WEKA SpamAssassin을 사용한 전처리 stringtowordvector를 사용한 데이터 세트

저는 WEKA에 대한 경험이 거의 없지만 데이터를 전처리 할 때 stringtowordvector 필터를 사용해야한다고 들었습니다. 나는 이것을하는 방법에 관해서 매우 혼란 스럽다. SpamAssassin 데이터와 WEKA를 사용하는 사람이 있습니까? 누구든지 사전 처리를 돕는 도움이되는 링크가 있습니까?

답변