0

이진 데이터 (0,1)와 숫자가 다른 데이터 세트가있는 데이터 세트가 있습니다. 내 데이터 (잠재적 인 자동 인코딩 또는 계층 클러스터링)를 분류하기 위해 일부 기계 학습 기술을 적용하려는 경우 데이터를 표준화하거나 정규화해야합니까?자동 인코딩, 와드 계층 클러스터링 등을 수행하기 전에 데이터를 표준화/정규화하십시오 (바이너리 + 숫자)?

감사합니다.

답변

0

다릅니다.

신경망의 경우 숫자로 인해 연속 변수를 표준화 할 수 있습니다. 그러나 플랫폼에 따라 다릅니다. Google은 TPU를 고려합니다. 1 바이트 정밀도로 작업하므로 관련 입력 도메인에서이 제한된 범위를 최적으로 사용하기를 원합니다.

클러스터링과 같은 거리 기반 방법의 경우 데이터를 전처리하는 것이 중요하지만 어렵습니다. 표준화가 항상 옳은 일이라는 것은 거짓입니다. 그러나 일부 정규화를 적용하는 것이 일반적입니다. 그러나 최상의 정규화를 찾으려면 도메인 전문가가 필요합니다.