reinforcement-learning

0열

1답변

Keras를 처음 사용 했으므로 LSTM 레이어의 입력 데이터 모양을 이해하기가 어려웠습니다. Keras 설명서에 따르면 입력 데이터는 모양이 3D 텐서이어야한다고 나와 있습니다 (nb_samples, timesteps, input_dim). 이 형식을 이해하는 데 어려움이 있습니다. timesteps 변수는 네트워크가 기억하는 타임 스텝 수를 나타 냅니까

3열

1답변

강화 학습에서 손실 함수 (MSVE) 구현

Othello에 대한 시간차 학습 에이전트를 작성하려고합니다. 내 구현의 나머지 부분은 의도대로 작동하는 것처럼 보이지만 내 네트워크를 교육하는 데 사용되는 손실 기능에 대해 궁금합니다. Sutton의 저서 "강화 학습 : 소개"에서 MSVE는 표준 손실 함수로 제시되며 기본적으로 평균 제곱 오차에 on 정책 배포를 곱한 값입니다 (모든 상태에 대한 합계

2열

1답변

OpenAI 헬스 클럽 모드

OpenAI 헬스 클럽 환경을 플레이어로 실행하는 방법을 아는 사람이 있습니까? 인간 플레이어가 장대를 돌릴 때와 마찬가지로? 나는 env.mode = 'human'이 있음을 보았지만 올바르게 실행되도록하지 못했습니다. 나는 여기에 주어진 예제를 따라하려고 시도했다 https://www.pinchofintelligence.com/getting-started

0열

1답변

tflearn 손실은 항상 0.0입니다 동안 나는이 코드를 사용하여 체육관과 tflearn와 에이전트를 학습 강화 훈련을 시도

교육 강화 학습 에이전트 :가 from tflearn import * import gym import numpy as np env = gym.make('CartPole-v0') x = [] y = [] max_reward = 0 for i in range(1000): env.reset() while True: a

1열

1답변

이미지가있는 Keras 모델을 훈련시키고 입력 값을 분리하는 방법은 무엇입니까? 혼합 입력

자율 헬리콥터에 대한 보강 학습 에이전트를 구축 중입니다. 순수한 이미지 입력에 대한 나의 Keras (1.0.7) 모델은 다음과 같습니다 image_model = Sequential() image_model.add(Convolution2D(32, 8, 8, subsample=(4, 4), input_shape=(1, 120, 215))) image_m

1열

1답변

PyTorch에서 LSTM을 사용하여 보강 학습을하는 방법은 무엇입니까?

전체 상태를 드러내지 않는 관측으로 인해, 반복적 인 신경망으로 보강을해야 네트워크에 과거의 일종의 기억이 있습니다. 간단히하기 위해 LSTM을 사용한다고 가정 해 보겠습니다. 내장 된 PyTorch LSTM은 모양 Time x MiniBatch x Input D의 입력을 피드에 입력해야하며 텐서 형태의 Time x MiniBatch x Output D을

0열

1답변

Will Q 학습 알고리즘은 e-greedy를 사용하지 않으면 동일한 결과를 산출합니까?

Q-Learning 알고리즘을 구현하려고하는데 전자 욕심쟁이로 작업을 선택할 시간이 없습니다. 단순성을 위해 적절한 정당화없이 임의의 작업을 선택하고 있습니다.이 작업을 수행할까요?

0열

1답변

어레이에서 tensorflow 자리 표시 자 먹이기

Q 학습을 사용하여 CatPole-v0을 교육하려고합니다.이 ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)' 관련 코드는 다음과 같습니다 : def update_replay_buffer(replay_buffer, state

0열

1답변

보강 학습에서 잘못된 동작

나는 http://curvefever.io/과 비슷한 게임을위한 커스텀 openai gym 환경을 구현했지만 연속적이 아닌 신중한 동작을 구현했습니다. 내 에이전트는 각 단계에서 왼쪽/위/오른쪽/아래 네 가지 방향 중 하나를 선택할 수 있습니다. 그러나 이러한 행동 중 하나는 항상 "역전"할 수 없기 때문에 항상 에이전트 자체가 충돌하게됩니다. 현재 저는

3열

2답변

RL에서 근단 정책 최적화 알고리즘을 이해하는 방법은 무엇입니까?

저는 강화 학습의 기본 내용을 알고 있지만 읽을 수 있도록하려면 무엇을 이해해야합니까? arxiv PPO paper? 배우고 사용하는 로드맵은 무엇입니까 PPO?