저는 Weka를 사용하여 2000 IMBD 영화 리뷰를 분류하고 있습니다. 나는 tutroial을 따라 가고있다 : http://www.stefanoscerra.it/movie-reviews-classification-weka-data-mining/weka의 스노볼 스템 머가 "끔찍한"형태의 "aw"를 막지 못하게하려면 어떻게해야합니까?
내가 줄 때마다 "awful"이라는 단어가 "aw"에 유래한다. 나는 포함 된 LovinsStemer를 시도해 보았고 동일한 결과를 얻었다. 페이지의 tutroial은 여전히 형태소 분석을하고 있지만, 속성 목록에 "끔찍한"단어가 있습니다.
또한, 나는 웨카 새로운 오전, 그래서 눈덩이 형태소 분석기의 내 구현이 잘못 될 수 있습니다. 난 그냥이 jar 파일 다운로드 : http://weka.wikispaces.com/file/view/snowball-20051019.jar/82917267/snowball-20051019.jar
을 그리고이 같은 클래스 경로 설정 : 자바를 -classpath "weka.jar : 눈덩이-20051019.jar"weka.gui.GUIChooser
데이터 세트에서