2016-09-04 2 views

답변

3

전체 데이터 (Q- 학습에서 가정)에 대해 무한 액세스 권한이 있다고 가정하는 세계에서 과부하의 개념은 없습니다. 상태 공간 기반의 "순수한"Q-learning을 사용하지 않고 대신 Deep Q-learning 같은 일부 근사자를 사용하면 과도하게 오버 트레인 될 수 있습니다. 이 properpty의 부족은 일반적으로 충족되지 않는 비현실적인 가정에서 비롯됩니다 (문제가 극도로 단순/작지 않은 경우 제외).

+0

정교한 응답에 감사드립니다. 이제 이해가된다 –