나는 제품의 특정 가격을 예측하기 위해 회귀 알고리즘 (이 경우 k-NearestNeighbors)을 연구 중입니다.범주 형 인코딩 전후의 표준화?
저는 4 가지 가능한 값을 가진 하나의 범주 형 기능 만있는 교육 세트를 보유하고 있습니다. 나는 one-to-k 범주화 된 인코딩 체계를 사용하여이를 처리했습니다. 즉, 현재 판다 데이터 프레임에 3 가지 더 많은 열이 있으며, 현재 값에 따라 0/1이 있습니다.
DataFrame의 다른 기능은 대부분 위치와 가격에 대한 위도 - 경도와 같은 거리이며 모두 숫자입니다.
범주화 된 인코딩 전후에 표준화 (평균 및 단위 분산이없는 가우스 분포)를 정규화해야합니까?
것은 내가 이웃 사이의 거리를 측정 할 때 모든 기능이 다른 모든만큼 중요 추 이다하지만 난 정말 모르겠어요 있도록 인코딩 후 정상화 benefitial 수 있습니다 생각하고 있어요.
알고리즘을 선택하면 둘 다 시도하고 잘 작동하는 것을 확인해야합니다. –
[소프트웨어 개발보다는 기계 학습에 관한 내용] (https://meta.stackoverflow.com/q/291009/1233251)으로 인해이 질문을 주제와 관련이없는 것으로 보겠다. [Cross Validated] (// stats.stackexchange.com) 또는 [DataScience.SE] (// datascience.stackexchange.com)에서이 질문을 할 수 있습니다. –