2017-09-29 5 views
0

저는 나이 증명, 교육 수준, 관계 관리자 코드와 같은 범주 형 변수를 사용하여 보험 사기 데이터 세트를 작성하고 있습니다.이상을 감지하는 동안 범주 형 변수를 처리하는 방법은 무엇입니까?

데이터 세트의 이상을 탐지하기 위해 빈도 수를 기준으로 수치의 범주로 변환하고 수준의 비율을 계산했습니다.

올바른 방법입니까? 그렇지 않다면 특이점을 발견하는 동안 범주 형 변수를 다루는 방법을 제안하십시오.

답변

0

빈도는 잘 작동해야하며 레이블을 사용하고 모든 데이터 세트를 평균화하면 초과 적용이 발생합니다. 순열에서 주어진 카테고리 값을 가진 모든 객체의 평균 레이블이이 주어진 객체에 대한 특징 값이 될 데이터의 무작위 순열을 사용하여 레이블에 대한 통계를 계산할 수 있습니다. 다른 가능성은 범주 적 기능을 즉시 사용할 수있는 알고리즘을 사용하는 것입니다. CatBoost를 사용해보세요 https://catboost.yandex