reinforcement-learning

1열

1답변

그라디언트 디센트가있는 SARSA는 가중치를 기하 급수적으로 계속 높입니다. 6) Qa: Qa = -2.00890180632e+303 7) NEXT Qa: Next Qa with west = -2.28577776413e+303 8) THETA: 1.78032402991e+303 <= -0.1 + (0.1 * -2.28577776413e+303)

0열

1답변

Q 학습 계산 : 알 수없는 상태

간단한 q_learning 알고리즘을 구현하는 방법에 대해 혼란스러워합니다. 나는이 좋은 문서를 언급하고있다 : http://artint.info/html/ArtInt_265.html. 주어진 수식이 문제는 내가 Flappybird's 성공적인 움직임을 배우려고 노력하고 있기 때문에 상태를 알 수 있다는 것입니다 Q[s,a] ←Q[s,a] + α(r+ γm

2열

1답변

시간 차이 학습의 이중 계산

시간적 차이를 배우는 예제 (https://www.youtube.com/watch?v=XrxgdpduWOU)를 사용하고 있으며 파이썬 구현시 다음 계산식에 문제가 있습니다. 아래 표를 2 차원 배열로 코딩하면 최대 보상이 1이라고 가정 할 때 현재 위치는 (2, 2)이고 목표는 (2, 3)입니다. Q (t)를 현재의 평균 평균 위치, 다음 r (t + 1)

8열

2답변

Tensorflow에서 Async n-step DQNetwork 업데이트를 위해 그라디언트를 축적하고 적용하는 방법은 무엇입니까?

Asynchronous Methods for Deep Reinforcement Learning을 구현 하려는데 단계 중 하나에 다른 단계에서 그라디언트를 축적 한 다음 적용해야합니다. tensorflow에서 이것을 달성하는 가장 좋은 방법은 무엇입니까? 나는 그라디언트를 축적하기에 이르렀고, 이것을 달성하는 가장 빠른 방법은 없다고 생각합니다. (tenso

1열

1답변

계층 적 강화 학습의 구현

큰 상태 공간을 추상화하여 처리 할 수있는 보강 학습 라이브러리 또는 프레임 워크를 추천 할 수있는 사람은 누구입니까? 저는 게임 세계에서 소규모 에이전트를위한 인텔리전스를 구현하려고합니다. 에이전트는 앞뒤로 움직이고 좌우로 움직일 수있는 작은 2 륜 로봇으로 표현됩니다. 지상의 경계를 감지하는 두 개의 센서, 멀리있는 물체를 감지하기위한 몇 개의 초음파

3열

1답변

model.predict() 및 model.fit()의 기능은 무엇입니까?

나는 this reinforcement learning tutorial 을 통해 갈거야 그리고 그것은 지금까지 정말 좋은있었습니다하지만 누군가가 newQ = model.predict(new_state.reshape(1,64), batch_size=1) 및 model.fit(X_train, y_train, batch_size=batchSize, nb_ep

6열

1답변

sknn - 두 번째 핏의 입력 치수 불일치

강화 학습을 사용하는 신경망을 만들려고했습니다. 나는 scikit-neuralnetwork를 라이브러리로 선택했습니다 (간단하기 때문에). 그래도 피팅이 Theano를 두 번 부러 뜨리는 것 같습니다. 다음은 충돌이 발생 간단한 코드이다 (참고, 거기 어떤 층 중요하지 않으며, 학습 속도 나 n_iter 않습니다) : import numpy as np f

3열

4답변

Q 학습 : 환경을 바꾼 후 다시 읽는 것

중간에 100의 보상 하나를 사용하여 크기 (nx n)의 격자에서 Q 학습을 구현했습니다. 에이전트는 다음 기관에서 목표에 도달하기 위해 1000 개의 신기원을 학습합니다. 그는 최고 상태 - 행동 값을 가진 이동을 확률 0.8로 선택하고 무작위 이동을 0.2 씩 선택합니다. 이동 후 상태 - 동작 값은 Q 학습 룰에 의해 갱신된다. 이제 다음 실험을 수행

2열

1답변

연속 상태, 개별 동작에 대한 강화 학습 알고리즘

연속 상태 (dim = 20) 및 개별 동작 (3 가지 가능한 동작)이있는 환경에서 최적의 정책을 찾으려고합니다. 그리고 구체적인 순간이 있습니다 : 최적의 정책을 위해 하나의 행동 ("행동 0"이라 부름)은 다른 두 가지보다 훨씬 더 자주 선택되어야합니다 (100 번 이상,이 두 가지 행동은 더 위험합니다). 나는 NN 값 - 근사치로 Q- 학습을 시도했

0열

1답변

NLTK NER : 연속 학습

NLTK의 NER 기능을 사용하려고했습니다. 나는 기사에서 그런 실재물을 추출하고 싶다. 나는 그렇게하는 것이 완벽 할 수는 없다는 것을 알고 있지만 NE에 수동으로 태그를 달기위한 인간의 개입이 있는지 궁금하다. 그렇다면 NLTK의 현재 모델이 지속적으로 모델을 학습 할 수 있습니까? (세미 감독 훈련)