2017-12-27 4 views
1

(500+) 열 사이에 높은 상관 관계가있는 데이터 세트가 있습니다. 내가 이해하는 것에서 (그리고 내가 틀렸다면 나를 바로 잡는다), 당신이 0의 평균과 하나의 표준 dev를 사용하여 정규화를하는 이유 중 하나는 주어진 학습률을 가진 옵티마이 저가 많은 것을 다루는 것이 더 쉽다는 것이다. 문제는 X의 척도로 학습률을 채택하는 것입니다.딥 학습을위한 데이터 화이트닝

마찬가지로 왜 데이터 집합을 '희게'해야하는지에 대한 이유가 있습니다. 그것은 이미지 처리의 공통 단계로 보인다. 열이 독립적이라면 어떻게 든 옵티마이 저가 더 쉽게 만들 수 있을까요?

나는 고전적으로 사람들이 가중치가 더 통계적으로 중요 해지고 행렬 반전이 더 안정적 이도록 행렬을 무의식 화하는 데 익숙하다는 것을 알고 있습니다. 요즘에 Stochastic Gradient Descent (SGD)의 변형을 사용하기 때문에 행렬 반전 부분은 최소한 DL에 있어서는 존재하지 않는 것처럼 보입니다.

답변

2

지금은 정말 중요한 것이 아닙니다. 읽기 Andrej에서 note. 일반적으로 우리는 심층 학습 아키텍처에서 PCA를 사용하지 않습니다. 계층 적 기능을 추출 할 수있는 심층 아키텍처가 있기 때문에 기능을 축소 할 필요가 없기 때문입니다. 센터 데이터를 0으로 만드는 것이 좋습니다. 즉, 일괄 처리의 분산을 줄이려면 데이터를 표준화해야합니다. 어쨌든 일반적으로 CNN에서 우리는 일괄 정규화 레이어를 사용합니다. 이것은 정말로 공변량 변화없이 네트워크가 수렴하는 데 도움이됩니다. adam.rmsprop과 같은 현대적인 최적화 기술은 데이터 전처리 부분의 중요성을 덜어줍니다.