reinforcement-learning

0열

1답변

많은 보강 학습 (RL) 논문에서 Markov Decision Process (MDP)는 RL 문제의 일반적인 문제 설정입니다. 이 환경의 진정한 이점은 무엇입니까? 일부 논문에서는 MDP 가정을 명백히 위반하는 정책 네트워크 구조로 LSTM을 사용합니다.

1열

1답변

체육관 환경 창조

나는 Openai와 체육관을 처음 사용합니다. 나는 우분투 14.04를 사용하고 있으며 모든 의존성이 나와 함께 설치되어있다. 나는 '새로운'체육관 건설을위한 명령 실행 순서를 이해할 수 없다. https://github.com/hackthemarket/gym-trading을 참조하십시오. 나는 내에서 동일하게 구현하기 위해 노력하고있어 때 , 그것은 표시

3열

1답변

두 플레이어 게임의 Q 값을 어떻게 업데이트합니까?

싱글 플레이어 게임의 경우 Q 값 업데이트는 매우 직관적입니다. 현재 상태와 미래 상태는 단일 플레이어의 전략에 따라 다르지만 두 플레이어의 경우에는 그렇지 않습니다. 상대방이 이기고 게임이 종료되는 시나리오를 고려하십시오. Q 값은 어떻게 갱신됩니까?

2열

1답변

보강 학습으로 원점에 가장 가까운 점 선택

복잡한 보 조 조건에 도달 할 때까지 주어진 점 집합에서 원점에 가장 가까운 점을 반복적으로 선택하기 위해 보강 학습을 사용하려고합니다. (이것은 내 주요 문제를 단순화 한 것입니다.) 가능한 포인트가 포함 된 2D 배열이 보강 학습 알고리즘에 전달되어 가장 이상적이라고 생각되는 포인트를 선택합니다. 이 경우 A [1, 10] B [100, 0] C [

0열

1답변

강화 학습에서 같은 상태에 대한 다른 보상

Chrome 공룡 게임 (오프라인 일 때 재생할 수있는 게임) 용 Q-Learning을 구현하고 싶습니다. 내 상태를 다음 장애물까지의 거리, 속도 및 다음 장애물의 크기로 정의했습니다. 보상을 얻으려면 나는 성공적으로 통과 한 장애물의 수를 사용하고 싶지만, 같은 주에서 다른 즉각적인 보상이 발생할 수 있습니다. 같은 유형의 장애물이 게임에서 나중에 다시

0열

1답변