0

181 개의 샘플과 10 개의 피쳐 및 하나의 대상 변수로 구성된 데이터 세트가 있습니다. 10 가지 기능은 숫자 적이며 연속적입니다. 나는 이진 분류를 수행해야한다. 나는 다음과 같은 작업을 수행 한 -작은 데이터 세트 <200 샘플의 이진 분류

I have performed 3 Fold cross validation and got following accuracy results using various models:- 

LinearSVC: 
0.873 
DecisionTreeClassifier: 
0.840 
Gaussian Naive Bayes: 
0.845 
Logistic Regression: 
0.867 
Gradient Boosting Classifier 
0.867 
Support vector classifier rbf: 
0.818 
Random forest: 
0.867 
K-nearest-neighbors: 
0.823 

내가 데이터 세트의 크기에 가장 적합한 모델을 선택하고 내 모델 overfitting 있지 않은지 확인 수있는 방법 나를 인도하세요? 나는 sklearn지도에서 단계를 따라 갔다 http://scikit-learn.org/stable/tutorial/machine_learning_map/

+1

이것은 프로그래밍과 관련이 없습니다. [cross-validated] (http://stats.stackexchange.com/) 또는 [data science] (http://datascience.stackexchange.com/)에 게시 해보십시오. – gobrewers14

답변

1

당신은 결코 그런 작은 표본으로 그것을 완전히 제거 할 수 없다.

먼저 교차 검증을 수행하십시오. 두 번째로 기본 매개 변수를 사용하십시오. 교차 검증의 결과를 사용하여 매개 변수를 변경하면 초과 적용 가능성이 있습니다.

마지막으로 전체 혼란 행렬이나 정확도보다는 f1과 같은 이것을 요약하는 측정 기준을 살펴보십시오. 99 %의 사람들이 암에 걸리지 않았다면 아무도 암이 없다고 예측하는 모델은 99 % 정확하지만 매우 도움이되지는 않습니다.