2011-11-17 6 views
0

2 년 전에 NLTK 분류기를 사용했습니다. 이제 텍스트 분류에 오렌지색 SVM을 사용하는 방법을 배우고 싶습니다. 오렌지 튜토리얼의 SVM 예제는 iris.tab입니다 :주황색 SVM 열차의 텍스트 데이터를 준비하는 방법은 무엇입니까?

sepal length sepal width petal length petal width iris 
c c c c d 
       class 
5.1 3.5 1.4 0.2 Iris-setosa 
4.9 3.0 1.4 0.2 Iris-setosa 

텍스트를 분류하고, 데이터를 준비하는 방법. 그것은 아래처럼?

token  frequency  tokenlength 

the  23    3 
for  21    3 
at   10    2 

다른 방법으로 데이터를 준비해주십시오. SVM에서 토큰을 레이블로 볼 수 있습니까? 그렇지 않다면 어떻게 할 수 있습니까?

대단히 감사드립니다.

답변

1

짧은 답변 : 제

긴 대답 : 레이블 당신이 처리 할 문서의 범주를 의미합니다. 예를 들어, 문서를 SPAM 및 HAM과 같은 두 가지 범주로 분류하려는 경우 레이블은 스팸 및 HAM이어야합니다. 데이터 표현을 위해 Bag of Words (http://en.wikipedia.org/wiki/Bag_of_words_model)와 같은 기술을 사용할 수 있습니다.

: 자세한 내용은

나는 다음과 같은 제안