Python, pandas, jupyter, scikit-learn.sklearn - 곱하기 실행에서 train_test_split 스플릿/상태 저장 하시겠습니까?
나는 필요에 :
- 만들기 n은 데이터 세트의 다른 분할.
- 은 나중에 중 하나를 수행하십시오. 노트/스크립트.
- 우아한 방법이 좋을 것입니다.
이제는 sklearn train_test_split을 사용하고 있지만 대체 방법은 괜찮습니다. 내가 올바르게 이해한다면 random_state 매개 변수는 다음과 같이 사용될 수 있습니다 :
n = 10**6
while n > 0:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state = n)
#whatever I'm going to to with this split
n-=1
그런 다음 분할을 재현 할 수있을 것으로 기대합니다. 모델을 다른 노트북에서 재생하도록 덤프 할 수 있습니까? 효과적입니까?
UPD 나는 정확한 답을 경험적으로 발견했습니다. (제발, 자신의 질문에 대답하는 특별한 방법이 있다면 가르쳐주세요).
기차 테스트 스플릿을 모델로 덤프 /로드 할 수 있습니다.
joblib.dump(train_test_split, path)
my_train_test_split = joblib.load(path)
하나 이상의 데이터 세트. 두 개의 다른 데이터 세트에서 루프 내에서 두 번 사용하고 고유 한 임의 상태를 전달합니다. 또한로드 된 모델을 사용하여 각 데이터 세트에 대한 분할을 재현 할 수 있습니다. 그게 내가 원하는 전부 야.
목록 추가 ... 핵심 단어 목록을 검색하여 내 대답을 읽을 때 – Wen
루프를 추가하십시오. 데이터 집합의 여러 가지 분할을 만드는 방법을 요청했다고 생각하십시오. 파일에 저장하십시오. 그것이 당신이 의미하는 것이 아니라면, – ErroriSalvo
을 k-fold 교차 검증과 같이 편집하십시오. 어쩌면 그것이 당신이 찾고있는 것입니까? –