Sutton & Barto's Book에 기반한 선형 그래디언트 디센트 Sarsa를 구현하려고합니다. 아래 그림의 알고리즘을 참조하십시오.선형, 그래디언트 강하 Sarsa 이해 (Sutton & Barto 기반)
그러나, 나는 알고리즘에 무언가를 이해하는 데 어려움을 겪고 :
- 취할 수있는 방법을 여러 가지 조치 w 및 z 독립의 차원인가? 그것은 그들이 얼마나 많은 행동에 독립적인지 말할 수있는 특징의 수와 같은 차원을 가진 책에서 보인다.
- 각 작업에 대해 w와 z가 있습니까? 또한이 책에서 나는 이것이 사실 일 수는 없다는 것을 알 수 없다.
- 위 두 글 머리표에있는 경우 인덱스 목록 F_a가 작업에 어떻게 의존하는지 알 수 없으므로 작업 값 기능 q_a가 작업에 어떻게 의존 할 수 있는지 알 수 없습니다 (표시된 줄 참조). 알고리즘에서는 노란색이 아래에 표시됩니다.)하지만 액션 값은 액션에 의존해야합니다. 그래서
나는 누군가가 나를 위해이 문제를 명확히하는 데 도움 수 있기를 바랍니다 :)
안녕하세요 Nick 님, 감사합니다. 대답은 의미가 있습니다. 위의 알고리즘을 각 동작에 대해 하나의 w로 구현했으며 작동했습니다. 여러 액션을 동일한 스칼라로 압축하는 것과 관련하여 요점을 명확히 할 수 있습니까? 결합 할 수있는 상태의 행동을 알기 위해 이전의 모델 지식이 필요합니까? – bbiegel
예. 표 형식의 값을 초과하는 매개 변수화 (각 S-A 쌍마다 하나의 이진 특성/가중치가 있음)에는 값 함수의 형식에 대한 가정이 필요합니다. 로컬 영역의 상태가 거의 동일한 값을 가지고 있음을 알게되면,이를 단일 바이너리 기능으로 축소 할 수 있습니다. 두 작업이 비슷한 경우 두 개의 스칼라 활성화로 단일 기능으로 축소 할 수 있습니다. 이는 가치 함수의 차이를 표현하는 능력을 제한합니다. 가치 함수는 학습하려는 근본적인 가치 함수를 얼마나 잘 반영하는지에 따라 좋거나 나쁠 수 있습니다. –