나는 Openai와 체육관을 처음 사용합니다. 나는 우분투 14.04를 사용하고 있으며 모든 의존성이 나와 함께 설치되어있다. 나는 '새로운'체육관 건설을위한 명령 실행 순서를 이해할 수 없다. https://github.com/hackthemarket/gym-trading을 참조하십시오. 나는 내에서 동일하게 구현하기 위해 노력하고있어 때 , 그것은 표시
복잡한 보 조 조건에 도달 할 때까지 주어진 점 집합에서 원점에 가장 가까운 점을 반복적으로 선택하기 위해 보강 학습을 사용하려고합니다. (이것은 내 주요 문제를 단순화 한 것입니다.) 가능한 포인트가 포함 된 2D 배열이 보강 학습 알고리즘에 전달되어 가장 이상적이라고 생각되는 포인트를 선택합니다. 이 경우 A [1, 10]
B [100, 0]
C [
Chrome 공룡 게임 (오프라인 일 때 재생할 수있는 게임) 용 Q-Learning을 구현하고 싶습니다. 내 상태를 다음 장애물까지의 거리, 속도 및 다음 장애물의 크기로 정의했습니다. 보상을 얻으려면 나는 성공적으로 통과 한 장애물의 수를 사용하고 싶지만, 같은 주에서 다른 즉각적인 보상이 발생할 수 있습니다. 같은 유형의 장애물이 게임에서 나중에 다시
https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82 내가 그것을 이해하기 위해 많은 시간을 보내고있는이 라인을 이해할 수 없습니다. 왜 tf.multiply을 사용해야합니까? 이 곱하기 연산을 지원하는 수학 연산을 찾을 수 없습니다.
Pytorch는 OpenAI 체육관 환경에서 Cartpole을 배우기 위해 배우 평론가를 사용하는 좋은 예입니다. 내가 https://github.com/pytorch/examples/blob/master/reinforcement_learning/actor_critic.py#L67-L79에서 발견 된 코드에서의 방정식의 몇 가지에 대한 혼란 스러워요 : s
강화 학습을 처음 접했습니다. 최근에 나는 OpenAI 체육관의 CartPole-v0를 해결하기 위해 Deep Q Network를 훈련 시키려고 노력 해왔다. 여기서 해결은 100 회 연속 에피소드에서 최소 195.0 점의 평균 점수를 얻는 것을 의미한다. 나는 2 층 신경망을 사용하여 1 백만 번의 경험, 엡실론 욕심쟁이 정책, RMSProp 최적화 및
딥 결정 성 정책 그라디언트 (DDPG)는 작업 공간이 연속적 일 때 강화 학습을위한 최첨단 방법입니다. 핵심 알고리즘은 Deterministic Policy Gradient입니다. 그러나 논문을 읽고 토크 (http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/)를 듣고 난 후에
차가 자율적으로 모든 장애물을 피하는 방법을 배울 수있는 시스템을 시뮬레이트하고 싶습니다. 기계 학습을 공부했지만 아직 학습을 강화하는 기계를 학습하지 않았습니다. 거기에 있습니다. 나에게 강화 학습은 당신이 MIT here하여이 링크를 통해 갈 수 sfml 그래픽 라이브러리