1

강화 학습을 처음 접했습니다. 최근에 나는 OpenAI 체육관의 CartPole-v0를 해결하기 위해 Deep Q Network를 훈련 시키려고 노력 해왔다. 여기서 해결은 100 회 연속 에피소드에서 최소 195.0 점의 평균 점수를 얻는 것을 의미한다.Deep Q 질문 Cartpole 작업을 해결하는 데 적합한 학습 방법이 있습니까?

나는 2 층 신경망을 사용하여 1 백만 번의 경험, 엡실론 욕심쟁이 정책, RMSProp 최적화 및 후버 손실 기능이 포함 된 메모리로 경험을 재연합니다.

이 설정을 사용하면 작업을 해결하는 데 수천 회의 에피소드 (> 30k)가 걸립니다. 학습은 때로는 매우 불안정합니다. 따라서, Deep Q Networks가 진동하고 이런 작업을 배우는데 오랜 시간이 걸리는 것은 정상입니까? 다른 대안 (또는 DQN 개선)으로 더 나은 결과를 얻을 수 있습니까?

+0

당신은 아마 당신의 목적을 위해 도움이 될 수있는 자습서를 찾을 수 있습니다. 이 튜토리얼에서는 OpenAI CartPole 문제를 사용하며 다음과 같은 신경망을 사용합니다. https://pythonprogramming.net/openai-cartpole-neural-network-example-machine-learning-tutorial/ –

+0

감사합니다. @PabloEM. 그것은 저에게 몇몇 새로운 통찰력을주고 있습니다. –

+1

좋아요. 일반적으로 Deep Q Learning은 Cartpole 작업을 해결하기 위해 과잉 공격이라고 생각합니다. –

답변

1

다른 대안 (또는 DQN 개선)으로 더 좋은 결과를 얻을 수 있습니까?

제 경험상 정책 그라디언트는 카트폴과 잘 작동합니다. 또한 구현하기가 쉽습니다 (정책 경사도가 인 경우은 감독 학습처럼 보임).

좋은 장소

시작합니다 : 여기 http://kvfrans.com/simple-algoritms-for-solving-cartpole/