누군가가 내 데이터 집합의 레코드를 무작위 화하기 위해 scikitlearn의 표 검색 기능 gridsearchCV
을 방지 할 수 있는지 알고 있습니까?교차 유효성 검사 (및 gridsearchCV)가 데이터 집합의 행을 임의 화하지 못하도록하는 옵션이 있습니까?
나는 같은 현상에 해당하는 행 그룹을 가지고 있으며 전체 행 대신 현상 ID를 무작위로 지정하려고합니다. SQL을 사용하여 이미 현상을 무작위로 추출한 결과, gridsearchCV
은 열차 및 테스트 세트에서 데이터 세트를 분리하기 전에 다시 임의 화하지 않기를 바란다. 내 데이터 세트의
예 : 나는 훈련과 테스트 데이터 집합 사이의 아이디에 분할을 좋아하지 않을
id time feature1 feature2 feature3 feature4
A 1 b c s a
A 2 b a s t
A 3 q w o j
B 1 l o j f
B 2 9 k l h
C 1 o k h u
C 2 o k h i
C 3 p j g d
D 1 l l d s
D 2 ...
D 3 ...
D 4 ...
D 5 ...
.
나를 도와 줄 수있는 옵션이 있습니까?
도움 주셔서 감사합니다.
안녕하세요 larsmarns. 도와 줘서 고마워. 너의 방법이 맞는 것 같아. 저는 클래스를 작성했으며, 테스트하고 싶습니다 : https://github.com/foebu/mypythoncontributions/blob/master/myCVclass.py 세트를 만들 때 세트 나 마스크 자체에서 무엇을 벗어나야합니까? – foebu
@foebu'X, y'의 샘플 색인. 'np.where'는 부울 마스크를 인덱스로 변환합니다. 예제에서 보았습니다. –
한편 KFold를 사용하고 있는데, 수업을 구현하고 수정할 시간이 없었습니다. Tt는 30K 행의 데이터 세트에서 일부 ID를 분리해야하는 문제가 아니어야합니다. – foebu