2016-12-26 1 views
0

연구 논문은 올가미 모델을 사용하여 분류 및 기능 선택을 수행 할 것입니다. 필자는 단호한 인코딩을 사용하여 범주 데이터를 처리하고 최종 모델에 대해 최종적으로 어떤 기능이 선택되었는지 결정하기 위해 원래의 범주 값에 매핑되는 기능을 파악해야합니다. 나는 잠시 동안이 질문에 인터넷 검색을 해왔지만 대답을 찾지 못했습니다.scikit의 one-hot 인코딩은 어떻게 인형을 지정합니까?

scikit의 원 핫 인코딩은 값을 어떻게 할당합니까? 예를 들어, 특정 변수의 내 범주 적 값은 {1, 2, 3, 4}입니다. one-hot 인코딩은 연대순으로 더미로 구성합니까 (즉, 방울 1, 값 2의 첫 번째 더미 만들기, 값 3의 두 번째 더미 및 값 4의 세 번째 더미) 아니면 찾은 순서에 따라 할당합니까? 이 행을 검사 상이한 범주의 값 (예를 들어 첫 번째 관측 값 (3)을 가지며, 상기 제 관찰은 값 2를 가지며, 그래서 3 드롭되고 제 1 더미 값이된다) 출발

감사합니다

답변

1

the source에서 잠깐 살펴 보니 정수 값으로 끝나는 것으로 보입니다. 그러나 이것이 문서화되지 않았기 때문에 이것에 의지 할 수 없습니다 : 계약의 일부가 아닙니다. 어떤 값이 끝나야하는지 알고 싶으면 내가 직접 작성한 OneHot 구현을 제안합니다. 너무 열심히해서는 안됩니다. 그러면 새 버전 등으로 업그레이드 할 때 믿을 수 있습니다.