-1

나는 제품의 특정 가격을 예측하기 위해 회귀 알고리즘 (이 경우 k-NearestNeighbors)을 연구 중입니다.범주 형 인코딩 전후의 표준화?

저는 4 가지 가능한 값을 가진 하나의 범주 형 기능 만있는 교육 세트를 보유하고 있습니다. 나는 one-to-k 범주화 된 인코딩 체계를 사용하여이를 처리했습니다. 즉, 현재 판다 데이터 프레임에 3 가지 더 많은 열이 있으며, 현재 값에 따라 0/1이 있습니다.

DataFrame의 다른 기능은 대부분 위치와 가격에 대한 위도 - 경도와 같은 거리이며 모두 숫자입니다.

범주화 된 인코딩 전후에 표준화 (평균 및 단위 분산이없는 가우스 분포)를 정규화해야합니까?

것은 내가 이웃 사이의 거리를 측정 할 때 모든 기능이 다른 모든만큼 중요 추 이다하지만 난 정말 모르겠어요 있도록 인코딩 후 정상화 benefitial 수 있습니다 생각하고 있어요.

+0

알고리즘을 선택하면 둘 다 시도하고 잘 작동하는 것을 확인해야합니다. –

+0

[소프트웨어 개발보다는 기계 학습에 관한 내용] (https://meta.stackoverflow.com/q/291009/1233251)으로 인해이 질문을 주제와 관련이없는 것으로 보겠다. [Cross Validated] (// stats.stackexchange.com) 또는 [DataScience.SE] (// datascience.stackexchange.com)에서이 질문을 할 수 있습니다. –

답변

0

일반적으로 모든 기능을 표준화하여 인코딩 후에 수행합니다 (표준화 할 기능이 필요없는 일부 기계 학습 알고리즘이 있다고 생각할 때 표준화를 시작한다고 가정 함). 잘 작동).

0

. 단순히 열에 숫자 변수가 아니라 문자열이 있다고 가정 해보십시오. 문자열을 표준화 할 수는 없습니다 - 맞습니까? :)

하지만 카테고리에 대해 작성한 내용을 전제로합니다. 값으로 나타내면 내부에 일종의 순위가 있다고 가정합니다. 아마 당신은 원 핫 코드가 아닌 원시 열을 사용할 수 있습니다. 그냥 생각.