3

Othello에 대한 시간차 학습 에이전트를 작성하려고합니다. 내 구현의 나머지 부분은 의도대로 작동하는 것처럼 보이지만 내 네트워크를 교육하는 데 사용되는 손실 기능에 대해 궁금합니다. Sutton의 저서 "강화 학습 : 소개"에서 MSVE는 표준 손실 함수로 제시되며 기본적으로 평균 제곱 오차에 on 정책 배포를 곱한 값입니다 (모든 상태에 대한 합계 (onPolicyDistribution (s)) * [V (s) - V '(s, w)] ²))강화 학습에서 손실 함수 (MSVE) 구현

내 질문은 지금 다음과 같습니다. 내 정책이 학습 된 가치 기능의 전자 욕심 기능 인 경우 정책 배포시이를 어떻게 받습니까? ? 그것도 필요하고 난 그냥 대신 MSELoss를 사용하는 경우 문제가 무엇인가?

내가 pytorch이 모두를 구현하는, 그래서 거기에 쉽게 구현 :

답변

0

당신이 언급 한 바와 같이,에 대한 보너스 포인트 네 사건이 들린다. Q- 러닝을하는 것처럼 Sutton의 저서에 설명 된 정책 그라디언트를 수행 할 필요가 없습니다. 그것은 당신이 정책을 배우고있을 때 필요합니다. 당신은 정책을 배우지 않고 있으며, 가치 기능을 배우고 그것을 사용하여 행동합니다.