temporal-difference

    0

    1답변

    아래 코드는 시간차 학습의 구현입니다. TD 알고리즘을 사용하는 에이전트는 게임을하기 위해 mini-max 절차를 사용하는 에이전트에 대해 75 만 건 이상의 게임을하지만, 문제는 TD 에이전트가 배우지 못한다는 것입니다.이 구현에있어 잘못된 점은 무엇입니까? 에이전트가 다음 이동을 선택할 때 updateToNextState가 호출됩니다. public vo

    1

    1답변

    업데이트 규칙 TD (0) Q-학습 : 다음 Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t))) (최적화) 중 현재 최선의 조치를 취하거나 (탐색기) 임의의 행동 MaxNextQ가 다음 상태에서 가지고 할 수있는 최대 Q입니다 은 ... 그러나 TD에서 (1) 나는 업데이트 규칙

    0

    1답변

    아는 한 특정 정책 \ pi에 대해 시간적 차이를 학습하면 해당 정책 \ pi 다음에 나오는 예상 값을 계산할 수 있지만 특정 정책을 아는 의미는 무엇입니까? 주어진 환경에서 최적의 정책을 찾아야하지 않습니까? 시간차 학습을 사용하여 특정 \ pi를하는 것은 무엇입니까?

    3

    1답변

    Othello에 대한 시간차 학습 에이전트를 작성하려고합니다. 내 구현의 나머지 부분은 의도대로 작동하는 것처럼 보이지만 내 네트워크를 교육하는 데 사용되는 손실 기능에 대해 궁금합니다. Sutton의 저서 "강화 학습 : 소개"에서 MSVE는 표준 손실 함수로 제시되며 기본적으로 평균 제곱 오차에 on 정책 배포를 곱한 값입니다 (모든 상태에 대한 합계

    2

    1답변

    시간적 차이를 배우는 예제 (https://www.youtube.com/watch?v=XrxgdpduWOU)를 사용하고 있으며 파이썬 구현시 다음 계산식에 문제가 있습니다. 아래 표를 2 차원 배열로 코딩하면 최대 보상이 1이라고 가정 할 때 현재 위치는 (2, 2)이고 목표는 (2, 3)입니다. Q (t)를 현재의 평균 평균 위치, 다음 r (t + 1)

    1

    3답변

    신경 네트워크 클래스에 대해 다음 초안을 작성했습니다. 이 뉴럴 네트워크는 TD-lambda로 학습해야합니다. getRating() 함수를 호출하여 시작됩니다. 그러나 불행하게도, 다음 줄에 약 1000 반복 후 EInvalidOp (무효 floading의 소수점 연산) 오류가 : neuronsHidden[j] := neuronsHidden[j]+neuro

    2

    1답변

    시간적 차이 학습에 관한 논문과 강의 (일부는 TD-Gammon에 대한 Sutton 튜토리얼과 같은 신경망 관련)를 읽었지만 방정식을 이해하는 데 어려움을 겪고 있습니다. , 나는 나의 질문으로 이끌었다. - 예측값 V_t는 어디서 오는가? 그리고이어서 V_ (t + 1)을 어떻게 구할 수 있습니까? - TD를 신경망과 함께 사용할 때 정확하게 전파 되나요