-1

두 클래스 (+1, -1)가있는 불균형 데이터 세트가 있습니다. 긍정적 인 것은 데이터 세트의 7 %에 불과합니다.불균형 데이터 세트의 샘플링 비율

Desicion Trees를 사용하여 분류하고 싶습니다. 긍정적

  • 긍정의 이중 또는 삼중 크기의

    1. 같은 사이즈 : 나는에 네거티브를 다운 샘플링 노력했다.

    나는 거의 동일한 정밀도를 얻었지만, 긍정적 인 리콜은 첫 번째 샘플 (네거티브는 포지티브와 동일한 크기)에서 훨씬 더 좋았다. 그러나 나는이 샘플링에 대해 나쁘지 않은 것을 여기에서 놓치고 있다고 느낍니다.

  • 답변

    0

    지배적 인 클래스를 다운 샘플링하는 것은 꽤 일반적입니다.

    하지만 실제 문제를 해결해야합니다.

    클래스를 1 : 1 비율로 다운 샘플링하면 특정 평가가 좋게 나타날 수 있지만 현실감을 반영 할 수 있습니까? 분류 기준은 50 %의 사례에서 양성을 예측하도록 훈련 받았지만 3 %만이 양성 반응을 보입니다. "가양 성"으로 인해 많은 비용이 든다면 문제가 될 수 있습니다.