Chrome 공룡 게임 (오프라인 일 때 재생할 수있는 게임) 용 Q-Learning을 구현하고 싶습니다.강화 학습에서 같은 상태에 대한 다른 보상
내 상태를 다음 장애물까지의 거리, 속도 및 다음 장애물의 크기로 정의했습니다.
보상을 얻으려면 나는 성공적으로 통과 한 장애물의 수를 사용하고 싶지만, 같은 주에서 다른 즉각적인 보상이 발생할 수 있습니다. 같은 유형의 장애물이 게임에서 나중에 다시 나타날 수 있지만 더 많은 장애물이 이미 통과되었으므로 통과하는 것에 대한 보상이 더 높습니다.
내 질문의 현재 : 문제입니까, 아니면 Q-Learning이 여전히 작동합니까? 더 좋은 방법이 없다면?
나는 죽을 때 커다란 부정적인 보상을주는 보상 체계를 제안합니다. 그리고 점수가 올라갈 때마다 긍정적 인 보상을받을 수 있습니다 (아마도 점수 증가와 같습니다). Q-learning에 대한 문제가 없습니다. 바닐라 Q 학습을 사용하여 놀라운 팩맨 에이전트를 보았습니다. 공룡 게임이 문제가되어서는 안됩니다. –