1
업데이트 규칙 TD (0) Q-학습 : 다음업데이트 규칙
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t)))
(최적화) 중 현재 최선의 조치를 취하거나 (탐색기) 임의의 행동
은 ...
그러나 TD에서
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max(Q(t)))
내 질문 :이
용어 gamma * Reward(t-1)
난 항상 내가 탐험 방지 것이라고 생각하는 .. t-1
에 최선 조치를 취할 것을 의미는 ..
누군가가 나에게 힌트를 줄 수 있습니까?
감사합니다.
그래서 TD (2)를 말할 때 다음 두 단계를 기반으로 작업을 선택하려고합니까? –