나는 보강 학습을 공부했지만, 이해할 수없는 것은 Q 값이 어떻게 계산되었는지입니다. 벨만 방정식 Q(s,a) = r + γ*max(Q(s',a'))
을 사용한다면, 영원히 계속되지 않을까요? Q(s',a')
은 하나의 timestep의 Q 값을 더 필요로하므로 계속해서 계속해서 계속됩니다. 어떻게 끝나나요?Q Learning에서 어떻게 실제로 Q 값을 얻을 수 있습니까? Q (s, a)가 영원히 계속되지 않을까요?
0
A
답변
1
Reinforcement Learning 일반적으로 정책 (특정 상태에서 취할 수있는 최선의 조치)을 찾으려고하고 정책이 더 이상 변경되지 않거나 예상되는 보상을 나타내는 값 기능이 수렴하면 학습 프로세스가 종료됩니다.
당신은 Q-learning 및 Value Iteration using the Bellman equation을 혼동하는 것 같다. Q-학습 당신이 Q 업데이트 할 보상을 얻을 사용하십시오 모델이없는 기술이다 : 여기
직접 보상 R 톤을 + 한 행동 을 수행 한 후 얻은 보상은 a t 상태 s t. α은 0과 1 사이의 학습 속도이며 0이면 학습이 수행되지 않고 1이면 최신 보상 만 고려됩니다. Bellman equation와
Value iteration : 모델 P (S, S ')도 P로 정의해야합니다 (들'
| S, A) 이는 에서 '을 사용하여' 상태로 갈 확률입니다. 가치 함수가 수렴되는 경우 일반적으로 가치 함수 V t + 1 비교되어 V 모든 상태에 대한 t로하고 작은 값보다 작은 경우, 확인하기 (엡실론) 정책이 알려져 통합한다 : 또한
참조 :