reinforcement-learning

-2열

1답변

표준 7 * 6 보드를 고려하십시오. Q-Learning 알고리즘을 적용하려고한다고 가정합니다. 그것을 적용하기 위해 모든 가능한 상태와 행동을 필요로합니다. 3^(7 * 6) = 150094635296999121이 될 수 있습니다. 이것들을 저장할 가능성이 없으므로, 나는 법적 상태만을 고려하고 있습니다. 모든 법적 상태 및 조치에 대해 Q (s, a)를

0열

1답변

Q-learning에서 탐색 및 활용

Q-learning 알고리즘에서 동작 선택은 현재 상태와 Q-matrix의 값에 따라 달라집니다. 이 Q 값이 탐색 단계에서만 업데이트되는지 아니면 이용 단계에서도 변경되는지 알고 싶습니다.

1열

1답변

액션 마스킹은 어떻게 구현하나요?

Actor Mimic은 작업 마스킹 절차를 구현하는 방법에 대해 설명합니다. 특정 게임을하는 동안 나는 을 인용, 우리는 그 게임에 유효하지 않습니다 AMN 액션 출력을 마스크와 유효한 행동의 부분 집합을 통해이 softmax을 누구 아이디어가 있습니까 어떻게 Tensorflow에서이 액션 마스킹을 구현할 수 있을까요? 구체적으로, 어떻게 행동의 특정 부분

0열

1답변

CartPole 작업의 목적은 무엇입니까?

저는 정책 그라디언트를하고 있으며 최선의 목적 함수가 작업에 무엇인지 알아 내려고하고 있습니다. 작업은 에이전트가 살아남은 타임 스텝마다 보상 1 점을 받고 종료시 보상 0 점을받는 열린 ai CartPole-v0 환경입니다. 목적 함수를 모델링하는 가장 좋은 방법은 무엇인지 알아 내려고합니다. 내가 개입 및 종료에 음의 값을 반환 보상 기능을 수정하지 않

1열

2답변

내 신경망 Q-learner가 tic-tac-toe를 배울 수없는 이유는 무엇입니까

좋아요, 그렇다면 DeepMind의 Atari 알고리즘과 동일한 아이디어를 사용하여 신경 네트워크 Q-learner를 만들었습니다. (아직)). 신경망 빌드 : 9-50와 1 은닉층 ("O"를 "X"-1 빈 자리가 0, 1) 9 개 입력 뉴런 (8)로 출력한다 (다른 크기, 활성화 함수 S 자형으로 시도),536 (모든 행동 1, Q 값, 기동 시그 모이

0열

1답변

q-learning의 반복 및 보상

안녕하세요, Q-learning에서 에이전트는 목표에 도달 할 때까지 조치를 취합니다. 알고리즘은 수렴을 얻을 때까지 여러 번 실행됩니다. 예를 들어, 목표는 시간 시뮬레이션이 끝날 때까지 최대 처리량을 얻는 것입니다. 시뮬레이션 시간은 n 개의 동등한 기간 T로 나누어지고 보상은 시간에 따라 변합니다. 따라서 요원은 각 기간마다 자신의 상태를 n 번 업데

0열

1답변

Q Learning에서 어떻게 실제로 Q 값을 얻을 수 있습니까? Q (s, a)가 영원히 계속되지 않을까요?

나는 보강 학습을 공부했지만, 이해할 수없는 것은 Q 값이 어떻게 계산되었는지입니다. 벨만 방정식 Q(s,a) = r + γ*max(Q(s',a'))을 사용한다면, 영원히 계속되지 않을까요? Q(s',a')은 하나의 timestep의 Q 값을 더 필요로하므로 계속해서 계속해서 계속됩니다. 어떻게 끝나나요?

2열

1답변

Q 깊은 학습 알고리즘이 작동하지 않습니다.

Q 학습 알고리즘을 구현하려고했으나 문제가 있습니다. 작동하지 않고 100000 회 게임을하고 1000 반복을 사용하여 각 단계를 학습했습니다.) 아직 배우지 못합니다. 네트워크 게임은 연결된 이미지에서 http://imgur.com/a/hATfB 여기서 각각의 트레이닝 단계에서 일어나는 것이다 같습니다 backprop위한 double maxQval; d

1열

1답변

R 프로그램에서 SARSA 코드를 gridworld 모델로 가져 오는 방법은 무엇입니까?

제 연구 사례에 문제가 있습니다. gridworld 모델의 강화 학습에 흥미로운 점이 있습니다. 모델은 운동을 위해 7x7 필드의 미로입니다. 필드의 미로를 고려하십시오. 위, 아래, 왼쪽 및 오른쪽 (또는 N, E, S, W) 네 가지 방향이 있습니다. 따라서 대부분의 정책이 있습니다. 많은 사람들이 벽에 부딪 치면서 즉각적인 처벌을받을 때 배제 될 수

1열

2답변

SARSA에 전환 확률 편입

DP 모델의 제한 사항 (DP 모델에 필요한 시간과 공간의 한계)을 극복하기 위해 C++에서 SARSA (람다) 모델을 구현합니다. 이는 계산 시간을 단축합니다 비슷한 연구를하기에는 수 시간 걸린다.) 공간이 적 으면 모델에 더 많은 안색을 더할 수있다. 우리는 명시적인 전환 확률을 가지며 차이를 만듭니다. SARSA 모델에 어떻게 통합해야합니까? 확률 자