2017-10-27 3 views

답변

0

예, 임의의 동작 선택을 사용하면 Q-learning이 최적의 정책을 학습 할 수 있습니다. 모든 국가 - 행동 쌍이 (점근 적으로) 무한히 자주 방문하게하는 집중 탐구의 목표는 수렴 요구 사항이다 [Sutton & Barto, Section 6.5]. 분명히, 무작위 액션 선택 프로세스는 또한이 요구 사항을 준수합니다.

주요 단점은 모든 학습 단계에서 에이전트가 제대로 작동하지 않는다는 것입니다. 또한, 아마도 융합 속도가 저하 될 수 있지만,이 마지막 지점은 응용 프로그램에 따라 달라질 수 있습니다.