1

Q-learning에서 ε-greedy 정책 실행 선택 정책을 구현하고자합니다. 여기에 많은 사람들이, 탐사의 감소 속도에 대한 방정식 다음, 사용하고탐색 속도가 감소하는 ε-greedy 정책

ɛ = 전자^(- 욕실)

N = 에이전트의 나이

E = 착취 매개 변수

그러나 이 "n"은 무엇을 의미하는지 명확하지 않습니다. 특정 주 - 액션 쌍에 대한 방문수 또는 반복 횟수입니까?

고마워요.

답변

1

몇 가지 유효한 답변이 있습니다. 이론적 인 관점에서, 수렴을 달성하기 위해, Q- 학습은 모든 국가 - 행동 쌍이 (점근 적으로) 무한히 자주 방문 할 것을 요구한다.

이전 조건은 여러 가지 방법으로 얻을 수 있습니다. 제 생각에는 n을 단순히 시간 간격 수, 즉 상담원이 환경과 수행 한 상호 작용 수 (예 : Busoniu, 2010, Chapter 2)로 해석하는 것이 더 일반적입니다.

그러나 일부 경우 탐사 속도는 각 주마다 다를 수 있으므로 n은 상담원이 상태 s [예 : Powell, 2011, chapter 12]을 방문한 횟수입니다.

두 해석 모두 똑같이 유효하며 Q- 학습의 점근 적 수렴을 (다른 조건과 함께) 보장합니다. 어떤 접근법을 사용하는 것이 더 나은 경우 또는 특정 문제에 따라 달라지면 정확한 값인 E과 유사해야합니다.