나는 약 3000 개의 개체가 있으며 각 개체에는 그 개체와 관련된 개수가 있습니다. 무작위로 70 % 훈련 및 30 % 테스트 분할로 훈련 및 테스트 데이터에서 이러한 개체를 나누고 싶습니다. 그러나 개체 수와 관계없이 각 개체와 관련된 개수를 기준으로 나누고 싶습니다.무작위로 훈련 및 테스트 데이터를 나누기
예를 들어, 내 데이터 집합에 5 개의 개체가 있다고 가정합니다. 나는 거의 70 % -30 %의 비율로 분할하는 경우
Obj 1 => 200
Obj 2 => 30
Obj 3 => 40
Obj 4 => 20
Obj 5 => 110
, 내 트레이닝 세트는
Obj 2 => 30
Obj 3 => 40
Obj 4 => 20
Obj 5 => 110
내 테스트 세트가 될 수 있어야
Obj 1 => 200
나는 경우, 다시 나누면, 나는 70-30 분할 비율에 근접한 다른 훈련과 테스트 세트를 얻어야한다. 나는 위의 분할이 나에게 70-30 분할을 제공하지 않는다는 것을 이해하지만 그것이 가까워지면 수용 할 만하다.
파이썬에서이를 수행 할 수있는 미리 정의 된 메소드/패키지가 있습니까? 내가 제대로 질문을 이해 가정
[Numpy : 교차 검증과 같은 방법으로 데이터 집합 (배열)을 학습 및 테스트 데이터 집합으로 분할/분할하는 방법] (http://stackoverflow.com/questions/3674409/numpy-how-to) -split-partition-a-dataset-array-to-training-and-test-datasets) – Zafi
기록상으로 볼 때 이것은 아마도 나쁜 아이디어 일 것입니다. 일반적으로 교육 자료를 동일하게 유지하여 시험 데이터를 배우지 않아야합니다. –