2017-11-20 12 views
1

매우 불균형 한 데이터 (Y = 5 % 및 N = 95 %)가있는 데이터 세트를 사용하고 있으며 데이터 세트에는 3000 개의 고유 레코드가 있습니다. 기능을 선택하기 위해 나는 정보를 얻었습니다. 다음 66 올바르게 분류 인스턴스 96.1698 % 잘못 분류 된 인스턴스 3.8302 %기계 학습에서 불균형 데이터를 모델링하는 방법은 무엇입니까?

=== 혼란 매트릭스 ===의 비율 분할로 임의 숲을 적용

----- B < - 분류를 예 :

901 11 | a = N

26 28 | b = Y

또한 SMOTE 필터를 시도했지만 그다지 비슷한 결과를 얻지는 않습니다. N과 Y의 인스턴스가 거의 같은 정도로 SMOTE 필터를 적용했습니다.

데이터가 맞지 않았을 가능성이 있습니까? 이보다 더 좋은 접근법이 있습니까?

+0

[소프트웨어 개발보다는 기계 학습에 관한 내용] (https://meta.stackoverflow.com/q/291009/1233251)으로 인해이 질문을 주제와 관련이없는 것으로 보겠다. [Cross Validated] (// stats.stackexchange.com) 또는 [DataScience.SE] (// datascience.stackexchange.com)에서이 질문을 할 수 있습니다. –

답변

1

저의 겸손한 경험에서 불균형 데이터는 데이터 수준과 알고리즘 수준에서 처리 할 수 ​​있습니다. SMOTE에서 일어나는 일은 소수점 클래스 데이터를 복제하거나 과도하게 샘플링하여 데이터를 재조정하려고 시도하는 것입니다. 과도하게 적용될 가능성이 있으므로 신중하게 사용해야한다고 생각합니다. 이 링크에서 Hellinger Distance Decision Tree (HDDT)를 시도해 보셨습니까 https://www3.nd.edu/~nchawla/papers/DMKD11.pdf

0

불균형 데이터에서는 분류 율이 의미가 없습니다. 민감도 또는 특이성이 더 좋은 지표 일 수 있습니다. 그것 이외에, 그것이 정보를 비뚤어지게하는 것에 더 견고한 Hellinger 거리에 비해 클래스 수를 사용하기 때문에 정보 획득은 많은 어려움을 겪을 것입니다. 내 겸손한 의견이 도움이되기를 바랍니다.