ε 욕심 정책
가 나는 Q 학습 알고리즘이 탐사 및 착취 사이에 균형을 시도해야한다 알고있다. 필자는이 분야의 초보자이므로 간단한 탐구/착취 동작 버전을 구현하고자했습니다.최적의 엡실론 (ε-욕심) 값
최적의 엡실론 값내 구현은 ε 욕심 정책을 사용하지만 엡실론 값을 결정하기에 올 때 나는 손실에 있어요. 엡실론은 알고리즘이 주어진 (상태, 동작) 쌍을 방문한 횟수 또는 수행 된 반복 횟수로 묶여 야합니까?
내 제안 :- 낮은 주어진 (상태, 행동) 쌍 발생했습니다 때마다 엡실론 값입니다.
- 완전한 반복이 수행 된 후에 엡실론 값을 낮추십시오.
- 상태가 발생할 때마다 ε 값을 낮 춥니 다.
많은 감사를드립니다!
그런 식으로 진행 했습니까? 당신은 다른 제안을 시도하고 그것을 수용된 대답과 비교 했습니까? 나는 양의 일정한 엡실론과 썩는 엡실론을 실험 해 봤지만 받아 들일만한 결과를 얻었지만 현재의 (주, 행동) 쌍의 방문수의 함수로서 엡실론을 갖는 것이 더 나은 결과를 가져다주지는 않는지 궁금하다. . 상담원이 이미 방문한 적이없는 (주, 행동) 쌍을 고려하여 상담원이 이미 여러 번 방문한 (주, 조치) 쌍을 고려할 때만 엡실론을 부식시키는 것이 좋습니다. –
예,'후회 최소화 '도 시도했습니다. 이렇게하면 수렴 속도가 빨라지지만 항상 최상의 솔루션을 찾을 수있는 것은 아닙니다. 실제로 큰 문제가있는 경우, 후회 최소화 접근법을 선호하는 경향이 있습니다. 더 나은 솔루션으로 빠르게 검색을 안내합니다. – OccamsMan