181 개의 샘플과 10 개의 피쳐 및 하나의 대상 변수로 구성된 데이터 세트가 있습니다. 10 가지 기능은 숫자 적이며 연속적입니다. 나는 이진 분류를 수행해야한다. 나는 다음과 같은 작업을 수행 한 -작은 데이터 세트 <200 샘플의 이진 분류
I have performed 3 Fold cross validation and got following accuracy results using various models:-
LinearSVC:
0.873
DecisionTreeClassifier:
0.840
Gaussian Naive Bayes:
0.845
Logistic Regression:
0.867
Gradient Boosting Classifier
0.867
Support vector classifier rbf:
0.818
Random forest:
0.867
K-nearest-neighbors:
0.823
내가 데이터 세트의 크기에 가장 적합한 모델을 선택하고 내 모델 overfitting 있지 않은지 확인 수있는 방법 나를 인도하세요? 나는 sklearn지도에서 단계를 따라 갔다 http://scikit-learn.org/stable/tutorial/machine_learning_map/
이것은 프로그래밍과 관련이 없습니다. [cross-validated] (http://stats.stackexchange.com/) 또는 [data science] (http://datascience.stackexchange.com/)에 게시 해보십시오. – gobrewers14