: cross_val_score (GaussianNB(), 특징, 대상, CV = 10)cross_val_score는 순차 샘플 또는 무작위 샘플을 가져 옵니까? 이것으로
우리는 (10)에 랜덤 데이터를 분할, 아니면 순차적 수행?
: cross_val_score (GaussianNB(), 특징, 대상, CV = 10)cross_val_score는 순차 샘플 또는 무작위 샘플을 가져 옵니까? 이것으로
우리는 (10)에 랜덤 데이터를 분할, 아니면 순차적 수행?
이것은 cv 매개 변수에서 지정하는 내용에 따라 다릅니다.
독립 변수가 바이너리 또는 멀티 클래스이면 StratifiedKFold를 사용하고, 그렇지 않으면 KFold를 사용합니다. 또한 분할을 수행하는 함수 (sklearn 또는 기타)를 지정하여 옵션을 대체 할 수 있습니다.
KFold 기능은 데이터를 연속 폴드로 나눕니다. 무작위 분할을 원하면 shuffle 매개 변수를 True로 설정할 수 있습니다. 무작위 셔플을 고치려면 random_state 값을 설정할 수 있습니다. 그렇지 않으면 임의의 값을 가지게되고 함수를 실행할 때마다 폴드가 달라집니다.
StratifiedKFold의 경우, 각 분할에서 종속 변수의 클래스 비율을 동일하게 유지하면서 데이터를 분할합니다. 이 때문에 함수를 호출 할 때마다 약간의 변경이있을 수 있습니다. 즉, 기본적으로 순차적이지 않습니다.
기본적으로 [StratifiedKFold] (http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html#sklearn.model_selection.StratifiedKFold) –