나는 기계 학습에 직면하고 있습니다. 불균형 데이터 세트에 대한 작업.불균형 데이터 세트 : 오버 샘플링 대 반복
가장 작은 클래스에는 몇 가지 예제가 있습니다 (가장 큰 것에서 2 백 개, 20 만 개). 오버 샘플링을 수행 할 필요가 있습니다. (정확하게 말하자면 더 작은 클래스를 오버 샘플링하고 더 큰 샘플을 중간 값으로 언더 샘플링합니다. 그러나이 질문의 범위를 벗어납니다). 로부터
1) 무작위 샘플 (교체와 과정의) 예 작은 클래스
2) 반복 n 번 예 :
지금, 나는 그 작업을 수행하는 두 가지 옵션이 있습니다 가장 작은 클래스
가장 좋은 방법은 무엇입니까?
미리 감사드립니다.
다른 응용 프로그램마다 다를 수 있습니다. 총 데이터의 10 % (1 %?)와 같은 테스트를 실행할 수 있습니까? 무작위로 추출하고, 오버/언더/랜덤/반복 샘플링으로 놀고, 어떤 종류의 스코어/MSE/손실을 얻을 수 있는지 알아보십시오. –