Keras
을 사용하여 심도있는 학습을 실험하고 있으며 에이전트에게 과제 수행을 가르치려고합니다. 내 문제에 깊은 q 학습이 수렴되지 않음
및 오브젝트 수직으로 이동하지 않도록하고 난 그가 그를 치는 것을 피하는 방법으로 속도를 바꾸는 법을 배워야하지 않을 것입니다. 나는이 내 코드를 기반으로 : Keras-FlappyBird
내가 400 출력 노드
와, 시그 모이 드 활성화 기능을 가진 10 조밀 숨겨진 층모델 (내가 회선 네트워크를 사용하지 않는) 3 개 가지 모델을 시도
Leaky ReLU
활성화 기능- 모델
ReLu
활성화 기능을 가진 10 조밀 숨겨진 층 10 조밀 숨겨진 층 모델, 400 출력 노드가있는
그리고 나는 네트워크에 내 모든 단어의 좌표와 속도를 네트워크에 공급합니다.
는 100 만 개 프레임을 훈련하지만 여전히 어떤 결과를 볼 수 없습니다 여기에 3 개 모델 내 Q 값 플롯,
모델 3 : 당신이 보상 이리저리 모든 같은에서 개선되지 않는 Q 값을 볼 수있는 Q 값이
을 확대 ... 좀 도와주세요 내가이야 무엇 잘못 입력하면 ...
답장을 보내 주신 것에 대해 고맙습니다. 1 : 400 노드 : 숨겨진 노드를 의미합니다. 출력 노드에는 3 개 밖에 없습니다. 2 : 네, 맞습니다. 저는 제 자신의 환경에 맞게 코드를 이식하고 있습니다. 3 : 내 환경을 설명하기; 기본적으로 이동하는 대상과의 충돌을 피하기 위해 네트워크를 교육하려고합니다. 대상으로 입력 위치를 입력하고 출력을 3 가지 가능한 작업으로 처리합니다. –
나는 올바른 것으로 생각합니다. 엡실론 매개 변수를 변경하려고했습니다. 그리고 감마와 나는 약간의 개선을 보았지만 나는 여전히 바랐다. –
나는 학습 속도를 포함하여 다른 매개 변수도 살펴볼 것이다. 환경에 터미널 상태가없는 경우 최소 탐사 속도가 .1 또는 이와 유사한 것을 고려해야하므로 새 상태를 지속적으로 탐색하여 다소 최적의 솔루션을 찾을 수 있습니다. –