나는 "Achtung Die Kurve"라고도 알려진 간단한 형태의 Curve Fever를 만들었습니다. 나는 기계가 게임을 최적으로하는 방법을 알아 내길 원한다. Google의 Tensorflow로 만든 일부 Atari 게임 예제에서 기존 DQN을 복사하고 약간 수정했습니다.학습을위한 보상 기능 DQN을 사용한 Curve Fever 게임
적절한 보상 기능을 알아 내려고 노력하고 있습니다. 이 모든 충돌
이 올바른 접근 방식인가에 대한
- 0.1 : 현재,이 보상 설정을 사용할 수 있습니까? 값을 조정해야합니까? 아니면 전혀 다른 접근 방식이 필요합니까?
DQN을 작동 시키도록 관리 했습니까? – ericwenn
예, 다음과 같이 채점을 구현했습니다. –
죽을 때는 -1, 죽이는 경우 +1. 생존을 위해 작은 상수 값을 사용 했습니까? – ericwenn