답변

2

우습게 문학에서 그 반대가 관찰되었다. 중퇴 할 원본 종이는 http://www.jmlr.org/papers/volume15/srivastava14a.old/source/srivastava14a.pdf입니다. 부록 A.2에서 : 저자는 학습 속도가 10-100 배 증가해야한다고 설명하고 많은 기울기가 서로 상쇄되기 때문에 운동량도 증가되어야한다. 아마도 배치 크기가 충분히 높지 않을 수도 있습니다.

위의 제공된 자료와 달리, 관찰 결과가 발생한 이유는 다음 설명과 같습니다.

0.5 드롭 아웃을 사용하면 절반의 뉴런 만 활성화되어 오류의 원인이됩니다. 여전히 오류는 크기면에서 비슷합니다. 따라서 오류는 네트워크를 통해 절반의 뉴런으로 전파됩니다. 그래서 오류의 각 뉴런 "부분"은 두 배가됩니다.

동일한 학습 속도를 사용하면 그라디언트가 두 배로 업데이트됩니다. 따라서 처음에는 더 큰 학습 속도를 사용했을 때와 같은 문제가 발생합니다. 학습 속도를 낮추면 이전에 사용한 범위에서 다시 업데이트됩니다.