0

나는 기계 학습에 직면하고 있습니다. 불균형 데이터 세트에 대한 작업.불균형 데이터 세트 : 오버 샘플링 대 반복

가장 작은 클래스에는 몇 가지 예제가 있습니다 (가장 큰 것에서 2 백 개, 20 만 개). 오버 샘플링을 수행 할 필요가 있습니다. (정확하게 말하자면 더 작은 클래스를 오버 샘플링하고 더 큰 샘플을 중간 값으로 언더 샘플링합니다. 그러나이 질문의 범위를 벗어납니다). 로부터

1) 무작위 샘플 (교체와 과정의) 예 작은 클래스

2) 반복 n 번 예 :

지금, 나는 그 작업을 수행하는 두 가지 옵션이 있습니다 가장 작은 클래스

가장 좋은 방법은 무엇입니까?

미리 감사드립니다.

+0

다른 응용 프로그램마다 다를 수 있습니다. 총 데이터의 10 % (1 %?)와 같은 테스트를 실행할 수 있습니까? 무작위로 추출하고, 오버/언더/랜덤/반복 샘플링으로 놀고, 어떤 종류의 스코어/MSE/손실을 얻을 수 있는지 알아보십시오. –

답변

0

Mohammed Athar가 언급했듯이 당신의 천박한 접근 방식 중 어느 것이 더 잘 작동하는지 시험해 볼 수 있습니다.

또한 "대형"클래스를 (large_class/small_class) 분할을 무작위로 시도 할 수 있습니다! 그런 다음 모든 분류에 대해 분류 자 ​​(작은 클래스의 데이터와 큰 클래스의 일부만 포함)를 훈련시킵니다.

마지막으로 모든 분류기를 bagging/boosting/neural_network/other_model과 결합 할 수 있습니다.