2017-05-05 11 views
1

저는 Weka를 사용하여 2000 IMBD 영화 리뷰를 분류하고 있습니다. 나는 tutroial을 따라 가고있다 : http://www.stefanoscerra.it/movie-reviews-classification-weka-data-mining/weka의 스노볼 스템 머가 "끔찍한"형태의 "aw"를 막지 못하게하려면 어떻게해야합니까?

내가 줄 때마다 "awful"이라는 단어가 "aw"에 유래한다. 나는 포함 된 LovinsStemer를 시도해 보았고 동일한 결과를 얻었다. 페이지의 tutroial은 여전히 ​​형태소 분석을하고 있지만, 속성 목록에 "끔찍한"단어가 있습니다.

attributes

StringtoWordVector

또한, 나는 웨카 새로운 오전, 그래서 눈덩이 형태소 분석기의 내 구현이 잘못 될 수 있습니다. 난 그냥이 jar 파일 다운로드 : http://weka.wikispaces.com/file/view/snowball-20051019.jar/82917267/snowball-20051019.jar

을 그리고이 같은 클래스 경로 설정 : 자바를 -classpath "weka.jar : 눈덩이-20051019.jar"weka.gui.GUIChooser

데이터 세트에서

답변

0

의 "끔찍한"이라는 단어는 237 열입니다. 필터 조작에서 제외하려면 속성 "attributeIndices"에서 "first-last"를 1-236,238-last로 변경하십시오. (안된다, 내 머리 꼭대기에서)