Q-Learning 알고리즘이 과부하가 될 수 있습니까?

Q-Learning 알고리즘이 고유 한 최적 정책의 Q에 수렴한다는 것이 입증되었습니다. 그렇다면 Q-Learning 알고리즘이 과도하게 될 수 없다는 결론을 내리는 것이 맞습니까?Q-Learning 알고리즘이 과부하가 될 수 있습니까?

출처

2016-09-04 Sahand Rezaei

전체 데이터 (Q- 학습에서 가정)에 대해 무한 액세스 권한이 있다고 가정하는 세계에서 과부하의 개념은 없습니다. 상태 공간 기반의 "순수한"Q-learning을 사용하지 않고 대신 Deep Q-learning 같은 일부 근사자를 사용하면 과도하게 오버 트레인 될 수 있습니다. 이 properpty의 부족은 일반적으로 충족되지 않는 비현실적인 가정에서 비롯됩니다 (문제가 극도로 단순/작지 않은 경우 제외).

출처

2016-09-04 20:03:57 lejlot

정교한 응답에 감사드립니다. 이제 이해가된다 –

Q-Learning 알고리즘이 과부하가 될 수 있습니까?

답변

관련 문제