1

숫자 기능과 카테고리이지만 정수로 인코딩 된 기능이 결합 된 데이터 세트로 작업하고 있습니다. 나는 레이스 우승하고 race_number 같은 기능을 사용하는 말의 확률 모델을 만드는거야 경우는 경마, 그래서숫자 카테고리가있는 기능을 그대로 두거나 더미 변수를 만드나요?

horse_id race_date track_no  race_number barrier_number won_race 
1   2016-10-01 100    1    4    1 
2   2016-10-01 100    1    3    0 
1   2016-10-15 200    3    5    0 
... 

했다 예를 들어, (같은 트랙에 여러 종족이있을 수 있습니다 같은 날 트랙 조건에 영향을 주어야 함) 및 barrier_number (말은 내부 장벽이나 외부 바깥 쪽을 선호 할 수 있습니다.) 그런 기능을 그대로 두거나 1을 나타내는 더미 변수를 만들어야합니다 (존재 여부)와 각 행의 변수 0 (부재)?

이것은 간단한 예이지만 이러한 열은 많은 수의 값을 가질 수 있으며 더미 변수를 생성하면 기능의 차원이 훨씬 커집니다. 그게 하나의 단점입니까, 아니면 단 하나의 열만 남겨 두는 것입니까?

편집 : 또한 열을 그대로두고 팬더의 간병 dtype으로 변환하면 좋습니다. Scikit과 같은 기존의 ML 라이브러리가 올바르게 처리 할 수 ​​있습니까?

+0

숫자는 괜찮지 만 그 클래스는 하나의 요소 여야합니다. –

+1

나쁜 질문은 아니지만 기술적으로 R이나 python을 사용하는 방법을 묻지는 않으므로 http://stats.stackexchange.com에서 질문하는 것이 좋습니다. –

+0

@ChirayuChamoli 감사합니다. 팬더에서 factor 데이터 유형이나 카테고리를 ML 알고리즘에 적용하면 잘 작동할까요? – sfactor

답변

0

(race_number, barrier_number) 설명 된 기능에 대해서는 그대로 두어도 괜찮습니다. 그러나 위의 예에서는 track_no 기능을 인코딩합니다.

개별 track_no 값 사이에 관계가 없기 때문입니다.

나는에 위의 예제를 설정합니다 :

horse_id race_date track_100  track_200  race_number barrier_number won_race 
1   2016-10-01 1    0    1    4    1 
2   2016-10-01 1    0    1    3    0 
1   2016-10-15 0    1    3    5    0 

나는 희망이 도움이!