1

업데이트 규칙 TD (0) Q-학습 : 다음업데이트 규칙

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t)))
(최적화) 중 현재 최선의 조치를 취하거나 (탐색기) 임의의 행동

MaxNextQ가 다음 상태에서 가지고 할 수있는 최대 Q입니다

은 ...


그러나 TD에서

(1) 나는 업데이트 규칙이 될 것이라고 생각 :

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max(Q(t)))

내 질문 :
용어 gamma * Reward(t-1) 난 항상 내가 탐험 방지 것이라고 생각하는 .. t-1에 최선 조치를 취할 것을 의미는 ..
누군가가 나에게 힌트를 줄 수 있습니까?

감사합니다.

+0

그래서 TD (2)를 말할 때 다음 두 단계를 기반으로 작업을 선택하려고합니까? –

답변

2

"자격 추적 정보"사용에 대한 이야기입니까? equations and the algorithm을 참조하십시오.

거기에 e_t (s, a) 방정식을 확인하십시오. 탐색 단계를 사용할 때 패널티가 적용되지 않습니다.