2017-04-18 6 views
1

저는 Python Sklearn을 사용하여 약 300 개의 피쳐를 가진 회귀 모델을 구축 중입니다. 기능 중 하나는 100 개 이상의 범주를 가지고 있으며,이 특징에 대해 ~ 100 개의 더미 열을 갖게됩니다. 이제는 더미 열의 각 계수 또는 기능 순위 점수 (임의의 포리스트 또는 xgb를 사용하는 경우)가 있습니다. 좋아하지 않아. 그러나 SAS JMP에서 동일한 모델을 만들면 100 가지 범주가있는 기능에 대해 하나의 단일 기능 점수가 부여됩니다. 이는 분명 범주를 자동으로 처리합니다. 누군가가 SAS JMP가 100 개의 더미 변수의 계수/피쳐 수입을 하나의 메트릭으로 결합하는 방법을 말해 줄 수 있습니까? 그리고 파이썬에서 어떻게 똑같이 할 수 있을까요?회귀 모델에서 더미 변수의 효과 결합하기

답변

1

SAS JMP는 정확히 어떻게 작동하는지 모르지만 더미 변수를 사용하지 않는 것으로 작동한다고 생각합니다. 트리 기반 모델은 실제로 분류 데이터를 기본적으로 지원합니다.이 모델은 sklearn (yet)에 의해 구현되지 않았습니다. 또한 적어도 더미 변수를 도입하면 this blog post과 같이 모델의 정확도가 떨어집니다.

블로그 게시물 (H2O)에서 사용한 패키지와 같은 다른 패키지를 사용할 수 있습니다.

+0

조르쥬 감사합니다. 유용했습니다. –

0

google SAS STAT 매뉴얼/사용 설명서입니다. Class 문을 지원하는 주요 회귀 절차를 확인하십시오. 클래스 밑에는 참조 ... 옵션이 있습니다. 그것들은 모두 어떻게 디자인 매트릭스가 만들어 지는지 상세하게 설명합니다. 100 개의 더미를 먹이는 방법은 JMP가 하나의 단일 변수로 다시 엔지니어링되는 임시 클래스 변수로 롤백하도록 트리거 할만큼 분명해야합니다. JMP가 롤백을 수행하는 방법을 정확하게 알고 싶으면 JMP 웹 사이트로 이동하여 기술 지원 트랙을 엽니 다. 그러나 기계적으로 나는 이것이 어떻게되는지 확신합니다.