sarsa

    2

    1답변

    누적 적격 추적 (http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)이있는 sarsa λ에서 주어진 알고리즘이 수식과 일치하지 않습니다. formula 는 E ← ɣλE + 1 제 E와 [ALGO] 업데이트 ← E + 1과 다음 E ← ɣλE 업데이트를 효과적으로 E 제조 ← ɣλ. (E + 1)

    1

    2답변

    DP 모델의 제한 사항 (DP 모델에 필요한 시간과 공간의 한계)을 극복하기 위해 C++에서 SARSA (람다) 모델을 구현합니다. 이는 계산 시간을 단축합니다 비슷한 연구를하기에는 수 시간 걸린다.) 공간이 적 으면 모델에 더 많은 안색을 더할 수있다. 우리는 명시적인 전환 확률을 가지며 차이를 만듭니다. SARSA 모델에 어떻게 통합해야합니까? 확률 자

    3

    1답변

    Sutton & Barto's Book에 기반한 선형 그래디언트 디센트 Sarsa를 구현하려고합니다. 아래 그림의 알고리즘을 참조하십시오. 그러나, 나는 알고리즘에 무언가를 이해하는 데 어려움을 겪고 : 취할 수있는 방법을 여러 가지 조치 w 및 z 독립의 차원인가? 그것은 그들이 얼마나 많은 행동에 독립적인지 말할 수있는 특징의 수와 같은 차원을 가진 책

    3

    1답변

    OpenAI 헬스 클럽에서 Frozen Lake 환경을 해결하기위한 Sarsa 알고리즘을 구현하려고합니다. 나는 곧이 일을 시작했지만 이해할 것 같아. 나는 또한 Sarsa 알고리즘이 어떻게 동작 하는지를 이해하고, 의사 코드를 찾을 수있는 많은 사이트가있다. 나는 그것을 얻는다. 모든 단계를 따르는 내 문제에서이 알고리즘을 구현했지만 모든 에피소드가 끝난

    1

    1답변

    제 연구 사례에 문제가 있습니다. gridworld 모델의 강화 학습에 흥미로운 점이 있습니다. 모델은 운동을 위해 7x7 필드의 미로입니다. 필드의 미로를 고려하십시오. 위, 아래, 왼쪽 및 오른쪽 (또는 N, E, S, W) 네 가지 방향이 있습니다. 따라서 대부분의 정책이 있습니다. 많은 사람들이 벽에 부딪 치면서 즉각적인 처벌을받을 때 배제 될 수