2013-07-18 9 views
0

많은 기계 학습 대회가 Kaggle에서 개최되는 기계 학습 프로그램 경쟁을 접근하는 방법.훈련 세트와 기능 세트 및 테스트 세트가 출력이 라벨 훈련 세트를 활용하여 기반으로 결정하는 것입니다 주어진

여기, SVM 등 의사 결정 나무처럼 학습 알고리즘을 감독 적용 할 수있는 꽤 분명하다. 내 질문은 어떻게 그런 문제에 접근하기 시작해야 하는가, 즉 의사 결정 트리 또는 SVM 또는 기타 알고리즘으로 시작할지, 아니면 다른 방법, 즉 어떻게 결정할 것인가?

+1

재미있는 질문이지만, 이것은 주관적이고 가능성이있는 오프 주제입니다 :-( – NPE

+1

나는이 경쟁에 매우 관심이 많기 때문에이 질문을 게시 할 수있는 포럼이 있습니까? – Joy

+2

음 , 당신은 kaggle 공개 토론에 질문을 제기 할 수 있습니다. 의심 할 여지없이 많은 사람들이 당신에게 약간의 조언을하기보다는 기꺼이 더 적절한 장소가 될 것입니다. (흥미로운 질문입니다) – mvherweg

답변

3

그래서, 난 당신의 게시물을 읽을 때까지 Kaggle 들어 본 적이 - 정말 감사합니다, 그것은 멋진 보인다. 그들의 사이트를 탐색 할 때, 나는 당신을 잘 안내 할 부분을 발견했습니다. competitions page가 (모든 대회를 클릭)에, 당신은 경쟁에서와 같이 튜토리얼은, 튜토리얼 아직 얼굴 키포인트 감지를 사용할 수 없습니다 (제공되며, 대회입니다 둘 다 Digit RecognizerFacial Keypoints Detection, 볼 수 있지만, 교육 목적이있다 그 초보자를위한 포럼뿐만 아니라 대회에도 포럼이 있습니다. 매우 유용하다고 생각합니다.

기계 학습의 수학적 기초에서 흥미롭고 비교적 새로운 사람이라면 Bayesian Reasoning and Machine Learning을 제안 할 수 있습니다. 그것은 떡갈 나무가 아니지만 엄격한 상실없이 상대방보다 훨씬 우호적입니다.

편집 : Kaggle에서 tutorials page을 찾았습니다.이 튜토리얼은 모두 자습서의 요약본 인 것으로 보입니다. 또한 파이썬 라이브러리 인 scikit-learn은 기계 학습 알고리즘에 대한 수많은 설명/설명을 제공합니다.

+0

고마워요 :) – Joy

1
  1. 데이터 마이닝에는 No Free Lunch이 있습니다. 많은 방법을 시도 할 때까지 어떤 방법이 효과가 있는지 알 수 없습니다. 상기되는 그게

  2. 또한 데이터 마이닝에서의 이해도와 정확도 간의 트레이드 오프가있다. 의사 결정 나무와 KNN은 이해하기 쉽지만 SVM이나 임의의 숲보다 정확하지 않은 경향이 있습니다. Kaggle은 이해 가능성에 대해 높은 정확성을 찾습니다.

  3. 또한 속성 수에 따라 다릅니다. 일부 학습자는 SVM과 같은 많은 특성을 처리 할 수 ​​있지만, 다른 학습자는 신경망과 같은 많은 특성으로 느립니다.

  4. 당신은 여러 Kaggle 대회에 도움이되었습니다 PCA를 사용하여 속성의 수를 축소 할 수 있습니다.

2

이 치트 시트 http://peekaboo-vision.blogspot.pt/2013/01/machine-learning-cheat-sheet-for-scikit.html은 좋은 출발점입니다. 제 경험으로 여러 알고리즘을 동시에 사용하면 더 나은 결과를 얻을 수 있습니다. 예를 들어, 각각의 결과에 사전 정의 된 가중치가있는 로지스틱 회귀 및 svm이 있습니다. 그리고

+0

+1 좋은 링크! 저는 앙상블 학습에 대한 열렬한 팬입니다 - 무작위 숲은 최고입니다 - 아니면 데이터의 다른 * 부분에 대해 다른 알고리즘을 사용하는 것을 언급하고 있습니까? 아니면 완전히 다른 것입니까? –