2014-12-06 4 views
0

간단한 q_learning 알고리즘을 구현하는 방법에 대해 혼란스러워합니다. 나는이 좋은 문서를 언급하고있다 : http://artint.info/html/ArtInt_265.html.Q 학습 계산 : 알 수없는 상태

주어진 수식이 문제는 내가 Flappybird's 성공적인 움직임을 배우려고 노력하고 있기 때문에 상태를 알 수 있다는 것입니다

Q[s,a] ←Q[s,a] + α(r+ γmaxa' Q[s',a'] - Q[s,a]) 

입니다. Q[s,a]을 얻으려면 Q[s',a']의 값을 알아야하지만 다음 상태를 모른다면 어떻게 Q 함수를 얻을 수 있습니까? 상태가 조류와 가장 가까운 파이프 사이의 거리로 설명된다고 가정하면, 현재 Q 함수를 어떻게 계산할 것입니까?

도움 주셔서 감사합니다.

답변

0

s'은 현재 상태입니다. s은 이전 상태입니다. max_a' Q[s', a']은 현재 상태에 대한 최상의 동작 값입니다.