-1

이것은 다소 일반적인 질문입니다. 역 전파 알고리즘을 구현할 때 "큰"학습 속도에서 시작하여 오류가 증가하기 시작한 후에 감소시킵니다. 좁혀서. 오류가 조금 (StateA) 증가하거나 직전에 (StateB, 이전 "성공"상태로 롤백하는)이 속도 감소를 수행 할 수 있습니다.오차 역 전파 알고리즘의 감소율 학습

그래서 질문은 무엇입니까? 수학적 관점에서 더 낫다. 아니면 두 가지 병렬 테스트를 실행해야합니까? StateA 지점에서 배우고 StateB를 감소 된 학습 속도로 가리키고 어느 것이 더 빠르게 감소하는지 비교해 봅시다.

동의어 마지막 단락에서 접근하지 않았습니다. 이 질문을 쓰는 동안 마음에 드는 것만 나타납니다. 알고리즘의 현재 구현에서 실수로 로컬 최소값에 직면했을 경우 학습 속도의 감소가 전체 최소값으로 이전 방향으로 되돌아 가게한다는 가정하에 학습률이 감소한 StateA에서 계속 학습합니다.

답변

0

기술은 학습 속도 스케줄이라는 기술 모음 중 하나입니다. 당신이 알고 그냥 들어, 두 개 이상의 기술이 있습니다 :

  • 소정 piesewise 일정한 학습 속도
  • 성능 스케줄링은
  • 지수 스케줄링 (당신에 가장 가까운 한 모양)
  • 전원 스케줄링
  • ...

정확한 성능은 최적화 도구 (SGD, 모멘텀, NAG, RMSPr op, Adam, ...) 및 데이터 매니 폴드 (즉, 훈련 데이터 및 목적 함수). 그러나 그들은 깊은 학습 문제와 관련하여 연구되어 왔습니다. 예를 들어 음성 인식 작업을위한 다양한 기술을 비교 한 this paper by Andrew Senior at al을 권해드립니다. 저자들은 지수 계획이 가장 잘 수행되었다고 결론을 내렸다. 그 뒤에 수학에 관심이 있다면, 당신은 분명히 그들의 연구를 봐야합니다.