0
간단한 q_learning 알고리즘을 구현하는 방법에 대해 혼란스러워합니다. 나는이 좋은 문서를 언급하고있다 : http://artint.info/html/ArtInt_265.html.Q 학습 계산 : 알 수없는 상태
주어진 수식이 문제는 내가 Flappybird's 성공적인 움직임을 배우려고 노력하고 있기 때문에 상태를 알 수 있다는 것입니다
Q[s,a] ←Q[s,a] + α(r+ γmaxa' Q[s',a'] - Q[s,a])
입니다. Q[s,a]
을 얻으려면 Q[s',a']
의 값을 알아야하지만 다음 상태를 모른다면 어떻게 Q 함수를 얻을 수 있습니까? 상태가 조류와 가장 가까운 파이프 사이의 거리로 설명된다고 가정하면, 현재 Q 함수를 어떻게 계산할 것입니까?
도움 주셔서 감사합니다.