숫자 기능과 카테고리이지만 정수로 인코딩 된 기능이 결합 된 데이터 세트로 작업하고 있습니다. 나는 레이스 우승하고 race_number
같은 기능을 사용하는 말의 확률 모델을 만드는거야 경우는 경마, 그래서숫자 카테고리가있는 기능을 그대로 두거나 더미 변수를 만드나요?
horse_id race_date track_no race_number barrier_number won_race
1 2016-10-01 100 1 4 1
2 2016-10-01 100 1 3 0
1 2016-10-15 200 3 5 0
...
했다 예를 들어, (같은 트랙에 여러 종족이있을 수 있습니다 같은 날 트랙 조건에 영향을 주어야 함) 및 barrier_number
(말은 내부 장벽이나 외부 바깥 쪽을 선호 할 수 있습니다.) 그런 기능을 그대로 두거나 1을 나타내는 더미 변수를 만들어야합니다 (존재 여부)와 각 행의 변수 0 (부재)?
이것은 간단한 예이지만 이러한 열은 많은 수의 값을 가질 수 있으며 더미 변수를 생성하면 기능의 차원이 훨씬 커집니다. 그게 하나의 단점입니까, 아니면 단 하나의 열만 남겨 두는 것입니까?
편집 : 또한 열을 그대로두고 팬더의 간병 dtype으로 변환하면 좋습니다. Scikit과 같은 기존의 ML 라이브러리가 올바르게 처리 할 수 있습니까?
숫자는 괜찮지 만 그 클래스는 하나의 요소 여야합니다. –
나쁜 질문은 아니지만 기술적으로 R이나 python을 사용하는 방법을 묻지는 않으므로 http://stats.stackexchange.com에서 질문하는 것이 좋습니다. –
@ChirayuChamoli 감사합니다. 팬더에서 factor 데이터 유형이나 카테고리를 ML 알고리즘에 적용하면 잘 작동할까요? – sfactor