강화 학습을 처음 접했습니다. 최근에 나는 OpenAI 체육관의 CartPole-v0를 해결하기 위해 Deep Q Network를 훈련 시키려고 노력 해왔다. 여기서 해결은 100 회 연속 에피소드에서 최소 195.0 점의 평균 점수를 얻는 것을 의미한다.Deep Q 질문 Cartpole 작업을 해결하는 데 적합한 학습 방법이 있습니까?
나는 2 층 신경망을 사용하여 1 백만 번의 경험, 엡실론 욕심쟁이 정책, RMSProp 최적화 및 후버 손실 기능이 포함 된 메모리로 경험을 재연합니다.
이 설정을 사용하면 작업을 해결하는 데 수천 회의 에피소드 (> 30k)가 걸립니다. 학습은 때로는 매우 불안정합니다. 따라서, Deep Q Networks가 진동하고 이런 작업을 배우는데 오랜 시간이 걸리는 것은 정상입니까? 다른 대안 (또는 DQN 개선)으로 더 나은 결과를 얻을 수 있습니까?
당신은 아마 당신의 목적을 위해 도움이 될 수있는 자습서를 찾을 수 있습니다. 이 튜토리얼에서는 OpenAI CartPole 문제를 사용하며 다음과 같은 신경망을 사용합니다. https://pythonprogramming.net/openai-cartpole-neural-network-example-machine-learning-tutorial/ –
감사합니다. @PabloEM. 그것은 저에게 몇몇 새로운 통찰력을주고 있습니다. –
좋아요. 일반적으로 Deep Q Learning은 Cartpole 작업을 해결하기 위해 과잉 공격이라고 생각합니다. –