2014-04-02 4 views
2

Q 학습 무엇 - 보상

나는 Q 학습 알고리즘의 의사 해석하는 데 어려움을 겪고있어 :Q-학습 : 보상 계산을위한 올바른 상태

1 For each s, a initialize table entry Q(a, s) = 0 
2 Observe current state s 
3 Do forever: 
4  Select an action a and execute it 
5  Receive immediate reward r 
6  Observe the new state s′ ← δ(a, s) 
7  Update the table entry for Q(a, s) as follows: 
8  Q(a, s) ← R(s) + γ * max Q(a′, s′) 
9  s ← s′ 

는 보상이 수집되어야한다 후속 상태 s' 또는 현재 상태 s?

답변

2

a 조치를 수행 한 후 상태를 입력하면 보상이 에서 수집되어야합니다.