Othello에 대한 시간차 학습 에이전트를 작성하려고합니다. 내 구현의 나머지 부분은 의도대로 작동하는 것처럼 보이지만 내 네트워크를 교육하는 데 사용되는 손실 기능에 대해 궁금합니다. Sutton의 저서 "강화 학습 : 소개"에서 MSVE는 표준 손실 함수로 제시되며 기본적으로 평균 제곱 오차에 on 정책 배포를 곱한 값입니다 (모든 상태에 대한 합계
Othello를 재생할 수있는 작은 인공 지능 프로그램을 만들었습니다. 내가 사용하는 알고리즘 (MCTS UTC)에는 탐사와 착취 비율을 조정할 수있는 매개 변수가 있습니다. 이것은 0부터 10까지의 단일 부동 소수점 값입니다 (무한대가 가능하지만 높은 값은 많은 의미를 갖지 않습니다). 이 매개 변수의 다른 값으로 알고리즘 자체를 쉽게 재생할 수 있습니다
이미지는 유감 스럽지만 죄송합니다. 나는 마지막 날 내 프로젝트에 대한 준비에 조금 치기 최소 최대 나무와 알파 데이터를 통해 읽어 봤는데. c에서 Othello에 대한 구현입니다. 나는 이것에 대한 많은 자료를 읽었으며 많은 질문을 받는다는 것을 알고있다. 평가 기능을 시작하기 전에이 부분을 완전히 이해하고 싶습니다. 첨부 된 이미지에서 나는 Min_No