2017-12-29 26 views
-2

긍정적 인 시나리오가 800k 항목의 3 % 만 발생하는 100 가지 특성을 가진 데이터에 대해 BinaryClassifier를 교육합니다. 교육을하는 동안 제외 어 인스턴스뿐만 아니라 긍정도 포함시켜야합니까? 우리는 결과가 단지 바이너리 일 수밖에 없다고 추측합니다. 즉, 모델이 포지티브에 대해 훈련을 받았다면, 약한 매칭은 그것이 부정적이라는 것을 의미합니다.Scikit BinaryClassification 교육 데이터 선택

두 가지를 모두 포함해야하는 경우 팬더 DataFrame의 샘플 방법이 신뢰할 수 있습니까?

감사합니다.

답변

-1

바이너리 분류기를 훈련하려면 훈련 데이터 세트에 두 개의 출력이 있어야합니다.

적어도 분류자를 사용하려면.

당신은 무엇을해야하는 불균형 데이터 집합이며, 여기에이 문제를 해결하는 몇 가지 방법은 다음과 같습니다

https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

+0

"바이너리 분류기를 훈련하는 경우 교육 데이터 세트에 두 개의 출력이 있어야합니다." 정말로 진실이 아니며 또한 질문이 말하는 것이 아닙니다. 긍정적 인 계급의 확률을 산출하는 것이 일반적입니다. – nnnmmm

0

당신이 불균형 데이터 집합을 처리하는 방법을 요구하는 경우가 많은 블로그 게시물은 온라인이 있습니다 주제, 예. here. 판다의 샘플 방법을 사용하는 한 가지 가능한 방법은 다른 클래스의 빈도에 대해 weights 매개 변수를 설정하는 것입니다. 즉, 양수 인 경우 0.97, 음수 인 경우 0.03을 설정하여 오버 샘플링으로 불균형을 수정합니다.

그러나 이론적으로 긍정적 인 인스턴스의 분포에 모델을 적용 할 수 있다고 말하면 테스트하는 동안 모든 아웃 라이어를 음수 인스턴스로 레이블링 할 수 있습니다. 그 접근법은 두 클래스 모두에서 배우는 것보다 분명히 더 나을 것입니다. 또한 scikit-learn과 같은 바이너리 분류 알고리즘은 항상 두 클래스의 인스턴스를 가정합니다.