2013-08-04 2 views
0

텍스트 분류 문제로 SVM을 사용하려고합니다. 나는 SVM 라이트와 그 파생 된 SVM 멀티 클래스 (2 개 이상의 클래스를 가진 분류 문제)라는 SVM 구현을 발견했다. 그러나 저는 분류자를 훈련하고 테스트하기 위해 파일 형식을 이해할 수 없습니다. 나는 필자가 feature vector를 만들 필요가 있음을 이해한다. (필자는 문서의 각 단어를 feature로 가정한다.) 그리고 나서 각 문서에 대해 클래스를 명시해야한다. 특징 벡터) 및 특징 값을 이용하여 열차 파일을 생성한다. 나는이 '특성 값'에 대해 혼란 스럽다. 그것은 무엇일까요? 이 문서에서이 기능의 개수입니까? 아니면 다른 것입니까? 웹 사이트에 포함 된 예제 기차 파일에는 특성 값을 구성하는 빈도가 아니라는 것을 나타내는 특성 값으로 정수가 없습니다.SVM 조명에 대한 교육 및 테스트 파일

또한이 열차 파일을 만들 수있는 도구/소프트웨어가 있는지 궁금합니다. 간단한 문서. 나는 일반적으로 Java로 작업한다. 그래서 이것을하기위한 Java의 일부 패키지는 나에게 충분할 것입니다. Google에서 검색을 시도했지만 관련성이없는 항목을 찾을 수 없습니다.

텍스트 분류에 SVM을 사용하는 다른 방법이 더 있는지 알고 싶습니다.

이와 관련하여 도움을 주시면 감사하겠습니다.

답변

2

간단한 이진 기능 (단어가 발생했는지 여부) 또는 간단한 계산을 사용할 수 있습니다. 그러나 단순한 카운트를 카운트의 로그 (logarithm)로 스케일링하고 싶을 것입니다. (더 자주 나오는 단어가 더 중요하지만 한 번 발생하는 단어보다 10x는 10 배 더 중요하지 않습니다).

또한 모든 문서에서 단어의 빈도를 고려하여 개수를 계량 할 수 있습니다. the이라는 단어가 문서에 자주 나타날지라도 문서에 대해서는별로 언급하지 않습니다. 빈번하게 일반적으로). tf-idf에서 확인하십시오.

SVM이 올바른 선택입니까? 정확한 기능을 찾는 것이 특히 초기 단계에서 정확한 알고리즘보다 더 중요하다고 나는 말할 수 있습니다.

+0

감사합니다. 그게 나를 위해 많은 공기를 맑게 해준다. – ritesh

+0

기능 자체는 어떻습니까? feature가 bag-of-words 인 경우이 기능의 숫자 순서가 증가합니까? – akshob