2
Q 학습 무엇 - 보상
나는 Q 학습 알고리즘의 의사 해석하는 데 어려움을 겪고있어 :Q-학습 : 보상 계산을위한 올바른 상태
1 For each s, a initialize table entry Q(a, s) = 0
2 Observe current state s
3 Do forever:
4 Select an action a and execute it
5 Receive immediate reward r
6 Observe the new state s′ ← δ(a, s)
7 Update the table entry for Q(a, s) as follows:
8 Q(a, s) ← R(s) + γ * max Q(a′, s′)
9 s ← s′
는 보상이 수집되어야한다 후속 상태 s'
또는 현재 상태 s
?