Othello에 대한 시간차 학습 에이전트를 작성하려고합니다. 내 구현의 나머지 부분은 의도대로 작동하는 것처럼 보이지만 내 네트워크를 교육하는 데 사용되는 손실 기능에 대해 궁금합니다. Sutton의 저서 "강화 학습 : 소개"에서 MSVE는 표준 손실 함수로 제시되며 기본적으로 평균 제곱 오차에 on 정책 배포를 곱한 값입니다 (모든 상태에 대한 합계 (onPolicyDistribution (s)) * [V (s) - V '(s, w)] ²))강화 학습에서 손실 함수 (MSVE) 구현
내 질문은 지금 다음과 같습니다. 내 정책이 학습 된 가치 기능의 전자 욕심 기능 인 경우 정책 배포시이를 어떻게 받습니까? ? 그것도 필요하고 난 그냥 대신 MSELoss를 사용하는 경우 문제가 무엇인가?
내가 pytorch이 모두를 구현하는, 그래서 거기에 쉽게 구현 :