데이터의 이진 분류 작업을하고 있으며 의사 결정 트리 및 적응 형 부스트 알고리즘보다 지원 벡터 시스템을 사용하는 경우의 장단점을 알고 싶습니다.Decision Tree 및 AdaBoost 알고리즘을 통한 SVM의 이점
답변
당신이하고자 할 수도있는 일은 weka을 사용하는 것입니다. 이것은 데이터를 연결하고 다양한 기계 학습 분류자를 사용하여 각 세트에서 어떻게 작동 하는지를 보여주는 좋은 패키지입니다. 기계 학습을하는 사람들에게는 잘 걷는 길입니다.
특정 데이터 또는 해결하려는 분류 문제에 대해 알지 못하면 각 방법에 대해 알고있는 무작위적인 것만 말하는 것이 아닙니다. 즉, 여기에 두뇌 덤프가 있으며 유용한 기계 학습 슬라이드에 대한 링크가 있습니다.
Adaptive Boosting은 약한 기본 분류 자위원회를 사용하여 샘플 지점의 등급 지정에 투표합니다. 기본 분류기는 의사 결정 스텀프, 의사 결정 트리, SVM 등이 될 수 있습니다. 반복적 인 접근 방식을 취합니다. 각 반복에서 -위원회가 합의하고 특정 표본에 대한 수업 과제를 수정하면, 가중치가 내려 가고 (다음 반복에 대해 중요하지 않게 됨),위원회가 일치하지 않으면 가중치가 적용됩니다 (다음 반복에서 분류하는 것이 더 중요 함). Adaboost는 좋은 일반화 (overfitting이 아님)로 알려져 있습니다.
SVMs은 유용한 첫 번째 시도입니다. 또한 SVM에서 다른 커널을 사용할 수 있으며 선형 의사 결정 경계뿐만 아니라 더 재미있는 모양의 결정 경계를 얻을 수 있습니다. 그리고 L1 정규화 (슬랙 변수)를 사용하면 과잉을 방지 할 수있을뿐 아니라 분리 할 수없는 데이터도 분류 할 수 있습니다.
Decision trees은 누구나 해석 할 수 있기 때문에 유용합니다. 그들은 사용하기 쉽다. 나무를 사용한다는 것은 또한 나무를 만들기 위해 특정 기능이 얼마나 중요한지 알 수 있음을 의미합니다. 확인하고 싶은 것이 있다면 덧셈 나무 (예 : MART)입니다.
"위원회가 특정 표본에 대한 등급 할당에 대해 동의하면 다운 가중치가됩니다." 이것은 사실이 아닙니다. 위원회가 (지상 진실 표지와 비교하여) 올바르게 표를 한 경우에는 가중치가 적용됩니다. 업 그레 이드에 대해서는 그 반대입니다. –
좋은 지적. 게시물에서 수정되었습니다. – kitchenette
왜이 태그가 Java입니까? –
몇 개의 데이터 요소와 기능이 있습니까? 시끄러운, 시끄러운? 빠른 선형 -SVM [scikit-learn SGDClassifier] (http://scikit-learn.org/stable/modules/sgd.html)로 시작하는 것이 좋습니다. – denis