2017-03-03 9 views
1

모든 보강 학습 알고리즘에서 가장 중요한 과제는 탐사와 개발 간의 균형을 맞추는 것입니다. 장난감 문제에 대해 학습하는 Q를 실행하려고하는데 빠른 엡실론 부식이 발생한다는 것을 알고 있습니다. 에이전트가 더 많은 탐색을 할 수 있고 엡실론 붕괴가 약 0.999가되도록 엡실론을 높게 (0.9 또는 1) 선택했습니다. 엡실론 붕괴를 늦추려면 어떻게해야합니까? 그렇지 않으면 상담원이 너무 빨리 욕심을 느끼기를 원하지 않습니까? 내 붕괴 매개 변수는 무엇이되어야합니까? 감사합니다.Q 학습에서의 엡실론 감쇠

답변

0

실행중인 반복 횟수, 각 에피소드에서 수행 된 단계 수 및 그 결과가 언제 부패하는지에 따라 다릅니다. 각 반복마다 부식 된 엡실론 값을 플로팅하고 원하는대로 움직이는 지 확인하십시오.

0

어떻게 감쇠 기능을 구현 했습니까?

엡실론 = 엡실론 * epsilon_decay

시간이 지남에 따라 엡실론 값을 플롯 할 수있는 제안은 좋은 것입니다. 이 페이지의 플롯을 살펴 보는 것도 좋습니다. Exponential Decay

아마도 처방에 감쇠 상수를 추가하려고합니다.