(500+) 열 사이에 높은 상관 관계가있는 데이터 세트가 있습니다. 내가 이해하는 것에서 (그리고 내가 틀렸다면 나를 바로 잡는다), 당신이 0의 평균과 하나의 표준 dev를 사용하여 정규화를하는 이유 중 하나는 주어진 학습률을 가진 옵티마이 저가 많은 것을 다루는 것이 더 쉽다는 것이다. 문제는 X의 척도로 학습률을 채택하는 것입니다.딥 학습을위한 데이터 화이트닝
마찬가지로 왜 데이터 집합을 '희게'해야하는지에 대한 이유가 있습니다. 그것은 이미지 처리의 공통 단계로 보인다. 열이 독립적이라면 어떻게 든 옵티마이 저가 더 쉽게 만들 수 있을까요?
나는 고전적으로 사람들이 가중치가 더 통계적으로 중요 해지고 행렬 반전이 더 안정적 이도록 행렬을 무의식 화하는 데 익숙하다는 것을 알고 있습니다. 요즘에 Stochastic Gradient Descent (SGD)의 변형을 사용하기 때문에 행렬 반전 부분은 최소한 DL에 있어서는 존재하지 않는 것처럼 보입니다.