Will Q 학습 알고리즘은 e-greedy를 사용하지 않으면 동일한 결과를 산출합니까?

Q-Learning 알고리즘을 구현하려고하는데 전자 욕심쟁이로 작업을 선택할 시간이 없습니다. 단순성을 위해 적절한 정당화없이 임의의 작업을 선택하고 있습니다.이 작업을 수행할까요?Will Q 학습 알고리즘은 e-greedy를 사용하지 않으면 동일한 결과를 산출합니까?

출처

2017-10-27 Redion Xhepa

예, 임의의 동작 선택을 사용하면 Q-learning이 최적의 정책을 학습 할 수 있습니다. 모든 국가 - 행동 쌍이 (점근 적으로) 무한히 자주 방문하게하는 집중 탐구의 목표는 수렴 요구 사항이다 [Sutton & Barto, Section 6.5]. 분명히, 무작위 액션 선택 프로세스는 또한이 요구 사항을 준수합니다.

주요 단점은 모든 학습 단계에서 에이전트가 제대로 작동하지 않는다는 것입니다. 또한, 아마도 융합 속도가 저하 될 수 있지만,이 마지막 지점은 응용 프로그램에 따라 달라질 수 있습니다.

출처

2017-10-27 08:36:06

Will Q 학습 알고리즘은 e-greedy를 사용하지 않으면 동일한 결과를 산출합니까?

답변

관련 문제