이것은 scikit이나 python의 질문이 아니지만 SVM의 일반적인 문제입니다. 의 SVM에서
데이터 인스턴스는 스칼라 종류, 일반적으로 실수의의 벡터로 표현해야합니다. 따라서 범주 속성은 SVM에 포함되기 전에 먼저 일부 숫자 값에 매핑되어야합니다.
일부 범주 속성은 더 자연스럽게/논리적으로 일부 규모 (일부 "느슨한"지표)에 매핑 될 수 있습니다. 예를 들어, 'no rush', 'standard delivery', 'Urgent'및 'Most Urgent'와 같은 우선 순위 필드에 대한 (1, 2, 3, 5) 매핑이 적합 할 수 있습니다. 또 다른 예로 빨강, 초록, 파랑 등의 컴포넌트에 대해 3 차원으로 매핑 할 수있는 색상이있을 수 있습니다.
다른 속성에는 축척에 대한 대략적인 논리 매핑도 허용하는 의미론이 없습니다. 이러한 속성에 대한 다양한 값에는 SVM의 하나 (또는 여러 개) 차원에 임의의 숫자 값을 할당해야합니다. SVM에 이러한 임의의 "비 메트릭"차원이 많으면 SVM 작업에 암시적인 거리 계산 및 클러스터링 논리가 의미 적으로 덜 관련되어 있기 때문에 항목을 적절히 분류 할 때 효율성이 떨어질 수 있습니다.
이 관찰은 항목에 비 숫자 또는 비 메트릭 차원이 포함 된 SVM을 전혀 사용할 수 없다는 의미는 아니지만 기능 선택 및 기능 매핑이 일반적으로 분류 자의 매우 중요한 매개 변수임을 상기시키는 것은 분명합니다. 특히 SVM.
POS-tagging의 특별한 경우 ... 나는 지금 당황 스럽다. 라벨을 붙인 코퍼스의 속성과 숫자 값에 매핑하는 방법에 대해 궁금하다. SVMTool은 SVM을 사용하여 매우 효율적인 POS 태그 생성기를 생성 할 수 있으며 여러 학술 논문에서도 SVM을 기반으로하는 태그 작성기를 설명합니다. 그러나 나는 태그에 대한 다른 접근 방식에 익숙해있어 (HMM에 또는 최대 엔트로피와 예.) 수레의 벡터이다
출처
2012-10-18 03:03:12
mjv
+1. POS 태깅의 경우 POS 창은 한 방향으로 만 확장 할 수 있습니다. 단어 창은 좋은 기능을 제공 할 수도 있습니다 (적어도 NER 및 WSD에서는 잘 작동합니다). 또한 고려중인 단어의 고정 길이 접두사도 사용할 수 있습니다. –