나는 H2O.ai의 랜덤 포리스트 (DRF)와 GBM을 사용하여 분류 및 회귀 모델을 만들고 있습니다. 나는 모델의 비선형 성을 부드럽게 할 수 있기 때문에 데이터를 정규화 (또는 스케일링) 할 필요가 없으므로 오히려 해를 끼칠 필요가 없다고 생각한다. 제 이해가 정확한지 확인해주십시오.무작위 포리스트 (drf) 또는 Gradient Boosting Machine (GBM)에 대한 데이터를 H2O 또는 일반적으로 정규화 (또는 스케일링)해야합니까?
-1
A
답변
5
물을 사용할 때 데이터에 대해 아무 것도 할 필요가 없습니다. 모든 알고리즘은 숫자/범주/문자열 열을 자동으로 처리합니다. 일부 방법은 자동으로 내부 표준화를 수행하지만 트리 방법은 필요하지 않으며 필요하지 않습니다. (나이가 5 이상이고 소득이 < 100000이면 좋습니다.) 그것이 "해로운"여부는 당신이하는 일에 달려 있습니다. 당신이하는 일을 정확히 알지 못한다면 알고리즘이 표준화를하도록하는 것이 좋습니다. 한 예로 클러스터링이 있는데, 여기서 거리는 데이터의 확장 (또는 축소)에 따라 달라집니다.