매우 불균형 한 데이터 (Y = 5 % 및 N = 95 %)가있는 데이터 세트를 사용하고 있으며 데이터 세트에는 3000 개의 고유 레코드가 있습니다. 기능을 선택하기 위해 나는 정보를 얻었습니다. 다음 66 올바르게 분류 인스턴스 96.1698 % 잘못 분류 된 인스턴스 3.8302 %기계 학습에서 불균형 데이터를 모델링하는 방법은 무엇입니까?
=== 혼란 매트릭스 ===의 비율 분할로 임의 숲을 적용
----- B < - 분류를 예 :
901 11 | a = N
26 28 | b = Y
또한 SMOTE 필터를 시도했지만 그다지 비슷한 결과를 얻지는 않습니다. N과 Y의 인스턴스가 거의 같은 정도로 SMOTE 필터를 적용했습니다.
데이터가 맞지 않았을 가능성이 있습니까? 이보다 더 좋은 접근법이 있습니까?
[소프트웨어 개발보다는 기계 학습에 관한 내용] (https://meta.stackoverflow.com/q/291009/1233251)으로 인해이 질문을 주제와 관련이없는 것으로 보겠다. [Cross Validated] (// stats.stackexchange.com) 또는 [DataScience.SE] (// datascience.stackexchange.com)에서이 질문을 할 수 있습니다. –