2014-04-02 3 views
13

ε 욕심 정책

가 나는 Q 학습 알고리즘이 탐사착취 사이에 균형을 시도해야한다 알고있다. 필자는이 분야의 초보자이므로 간단한 탐구/착취 동작 버전을 구현하고자했습니다.최적의 엡실론 (ε-욕심) 값

최적의 엡실론 값

내 구현은 ε 욕심 정책을 사용하지만 엡실론 값을 결정하기에 올 때 나는 손실에 있어요. 엡실론은 알고리즘이 주어진 (상태, 동작) 쌍을 방문한 횟수 또는 수행 된 반복 횟수로 묶여 야합니까?

내 제안 :
  1. 낮은 주어진 (상태, 행동) 쌍 발생했습니다 때마다 엡실론 값입니다.
  2. 완전한 반복이 수행 된 후에 엡실론 값을 낮추십시오.
  3. 상태가 발생할 때마다 ε 값을 낮 춥니 다.

많은 감사를드립니다!

+0

그런 식으로 진행 했습니까? 당신은 다른 제안을 시도하고 그것을 수용된 대답과 비교 했습니까? 나는 양의 일정한 엡실론과 썩는 엡실론을 실험 해 봤지만 받아 들일만한 결과를 얻었지만 현재의 (주, 행동) 쌍의 방문수의 함수로서 엡실론을 갖는 것이 더 나은 결과를 가져다주지는 않는지 궁금하다. . 상담원이 이미 방문한 적이없는 (주, 행동) 쌍을 고려하여 상담원이 이미 여러 번 방문한 (주, 조치) 쌍을 고려할 때만 엡실론을 부식시키는 것이 좋습니다. –

+0

예,'후회 최소화 '도 시도했습니다. 이렇게하면 수렴 속도가 빨라지지만 항상 최상의 솔루션을 찾을 수있는 것은 아닙니다. 실제로 큰 문제가있는 경우, 후회 최소화 접근법을 선호하는 경향이 있습니다. 더 나은 솔루션으로 빠르게 검색을 안내합니다. – OccamsMan

답변

16

많은 간단한 경우 εk는 0과 1의 범위에서 고정 된 숫자로 유지되지만 다음을 알아야합니다.일반적으로 탐사는 시간이 지남에 따라 감소하므로 점근 적으로 사용되는 정책은 욕심이 많으므로 (Qk → Q *) 최적. 이것은 k가 커짐에 따라 εk를 0에 접근시킴으로써 달성 될 수있다. 예를 들어, εk = 1/k 형태의 ε- 유인 탐사 일정은 Q- 학습의 두 번째 수렴 조건, 즉 모든 국가 행위에 무한히 많은 방문을 허용하면서 k → ∞로 0으로 감소한다 쌍 (Singh et al., 2000).

은 내가 일반적으로 할 것은 이것이다 : 는 초기 알파 = 1/k는 (초기 K = 1을 고려 또는 2) 설정 k는 알파가 감소 증가로 당신은 재판에 의해 재판을 이동 한 후. 또한 컨버전스를 보장합니다.

+3

엡실론 - 붕괴라고도합니다. – danelliottster

0

옳지 않은 경우가 아니면 일반적으로 ε을 양수 상수로 설정하는 것이 좋습니다.

+0

경험적으로 : Q 값 테이블이 실제 전환 테이블로 수렴함에 따라 상담원이 탐사를 허용 할 가능성이 낮습니까? 예 : 게임 에이전트가 빈약 한 움직임 (탐험)을 계속하는 대신 응급의 완벽한 전략을 선호해야합니다. – OccamsMan