나는 http://curvefever.io/과 비슷한 게임을위한 커스텀 openai gym 환경을 구현했지만 연속적이 아닌 신중한 동작을 구현했습니다. 내 에이전트는 각 단계에서 왼쪽/위/오른쪽/아래 네 가지 방향 중 하나를 선택할 수 있습니다. 그러나 이러한 행동 중 하나는 항상 "역전"할 수 없기 때문에 항상 에이전트 자체가 충돌하게됩니다.보강 학습에서 잘못된 동작
현재 저는 에이전트가 무브먼트를 취하도록하고 무효화 된 행동을 취하면 결국 죽게 내버려두고 결국 그 상태에서 행동을 취하지 않게되기를 바랍니다. 나는 불법 이동을 0으로 만들고 그 다음에 행동을 취할 확률을 설정할 수 있다고 읽었습니다. 이 문제를 해결할 다른 방법이 있습니까?
고마워요. 인공 지능은 지난 주에 끝낸 경쟁을위한 것이었고, 나는 포기할 수 없었습니다. 나는 A3C를 사용 했으므로 출력으로 softmax 레이어가 없습니다. 내가 게임 플레이를 보았을 때, 실제로 그렇게 자주 움직이지 않는다는 것을 알았습니다. (이렇게하면 즉시 죽을 것이므로 좋은 움직임이 아닙니다.) 내가 실패한 곳은 입력을 정리하고 너무 높은 감마 값을 정리하는 것입니다. 나는 그것을 가장 길게 훈련했을 때 .95로 설정되었습니다. – ericwenn
어떤 경쟁인지 물어볼 수 있습니까? 고마워요. –
그것은 Cygni의 경쟁이었습니다. 여기에서 찾을 수 있습니다. http://game.snake.cygni.se/#/?_k=kdwudn – ericwenn