reinforcement-learning

    0

    1답변

    많은 보강 학습 (RL) 논문에서 Markov Decision Process (MDP)는 RL 문제의 일반적인 문제 설정입니다. 이 환경의 진정한 이점은 무엇입니까? 일부 논문에서는 MDP 가정을 명백히 위반하는 정책 네트워크 구조로 LSTM을 사용합니다.

    1

    1답변

    나는 Openai와 체육관을 처음 사용합니다. 나는 우분투 14.04를 사용하고 있으며 모든 의존성이 나와 함께 설치되어있다. 나는 '새로운'체육관 건설을위한 명령 실행 순서를 이해할 수 없다. https://github.com/hackthemarket/gym-trading을 참조하십시오. 나는 내에서 동일하게 구현하기 위해 노력하고있어 때 , 그것은 표시

    3

    1답변

    싱글 플레이어 게임의 경우 Q 값 업데이트는 매우 직관적입니다. 현재 상태와 미래 상태는 단일 플레이어의 전략에 따라 다르지만 두 플레이어의 경우에는 그렇지 않습니다. 상대방이 이기고 게임이 종료되는 시나리오를 고려하십시오. Q 값은 어떻게 갱신됩니까?

    2

    1답변

    복잡한 보 조 조건에 도달 할 때까지 주어진 점 집합에서 원점에 가장 가까운 점을 반복적으로 선택하기 위해 보강 학습을 사용하려고합니다. (이것은 내 주요 문제를 단순화 한 것입니다.) 가능한 포인트가 포함 된 2D 배열이 보강 학습 알고리즘에 전달되어 가장 이상적이라고 생각되는 포인트를 선택합니다. 이 경우 A [1, 10] B [100, 0] C [

    0

    1답변

    Chrome 공룡 게임 (오프라인 일 때 재생할 수있는 게임) 용 Q-Learning을 구현하고 싶습니다. 내 상태를 다음 장애물까지의 거리, 속도 및 다음 장애물의 크기로 정의했습니다. 보상을 얻으려면 나는 성공적으로 통과 한 장애물의 수를 사용하고 싶지만, 같은 주에서 다른 즉각적인 보상이 발생할 수 있습니다. 같은 유형의 장애물이 게임에서 나중에 다시

    0

    1답변

    https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82 내가 그것을 이해하기 위해 많은 시간을 보내고있는이 라인을 이해할 수 없습니다. 왜 tf.multiply을 사용해야합니까? 이 곱하기 연산을 지원하는 수학 연산을 찾을 수 없습니다.

    0

    1답변

    Pytorch는 OpenAI 체육관 환경에서 Cartpole을 배우기 위해 배우 평론가를 사용하는 좋은 예입니다. 내가 https://github.com/pytorch/examples/blob/master/reinforcement_learning/actor_critic.py#L67-L79에서 발견 된 코드에서의 방정식의 몇 가지에 대한 혼란 스러워요 : s

    1

    1답변

    강화 학습을 처음 접했습니다. 최근에 나는 OpenAI 체육관의 CartPole-v0를 해결하기 위해 Deep Q Network를 훈련 시키려고 노력 해왔다. 여기서 해결은 100 회 연속 에피소드에서 최소 195.0 점의 평균 점수를 얻는 것을 의미한다. 나는 2 층 신경망을 사용하여 1 백만 번의 경험, 엡실론 욕심쟁이 정책, RMSProp 최적화 및

    5

    2답변

    딥 결정 성 정책 그라디언트 (DDPG)는 작업 공간이 연속적 일 때 강화 학습을위한 최첨단 방법입니다. 핵심 알고리즘은 Deterministic Policy Gradient입니다. 그러나 논문을 읽고 토크 (http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/)를 듣고 난 후에

    -3

    2답변

    차가 자율적으로 모든 장애물을 피하는 방법을 배울 수있는 시스템을 시뮬레이트하고 싶습니다. 기계 학습을 공부했지만 아직 학습을 강화하는 기계를 학습하지 않았습니다. 거기에 있습니다. 나에게 강화 학습은 당신이 MIT here하여이 링크를 통해 갈 수 sfml 그래픽 라이브러리