q-learning

    0

    1답변

    Q 학습을 사용하여 CatPole-v0을 교육하려고합니다.이 ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)' 관련 코드는 다음과 같습니다 : def update_replay_buffer(replay_buffer, state

    0

    1답변

    Chrome 공룡 게임 (오프라인 일 때 재생할 수있는 게임) 용 Q-Learning을 구현하고 싶습니다. 내 상태를 다음 장애물까지의 거리, 속도 및 다음 장애물의 크기로 정의했습니다. 보상을 얻으려면 나는 성공적으로 통과 한 장애물의 수를 사용하고 싶지만, 같은 주에서 다른 즉각적인 보상이 발생할 수 있습니다. 같은 유형의 장애물이 게임에서 나중에 다시

    1

    1답변

    Keras을 사용하여 심도있는 학습을 실험하고 있으며 에이전트에게 과제 수행을 가르치려고합니다. 내 문제에 내가이 경로의에서 속도의 변화에 ​​의해 물체를 타격하지 않도록 에이전트를 가르 칠 wan't (가속 또는 감속) 에이전트가 수평으로 이동 및 오브젝트 수직으로 이동하지 않도록하고 난 그가 그를 치는 것을 피하는 방법으로 속도를 바꾸는 법을 배워야하지

    0

    2답변

    학습자가 훈련 단계에있을 수 있습니다.이 단계에서는 신기원을위한 Q-table을 업데이트합니다. 이 단계에서 Q- 테이블은 감마 (할인율), 학습률 (알파)로 업데이트되며 임의의 동작 속도로 동작이 선택됩니다. 보상이 안정되고있는 몇 몇 신기원이 끝나면이 "훈련이 완료되었습니다"라고 말하게하십시오. 그런 다음이 매개 변수 (감마, 학습 속도 등)를 무시해야

    1

    1답변

    나는자가 운전용 자동차 프로그램을 위해 아래의 코드를 작성 중이다. 내 choose_action 함수에 문제가있다. : 에이전트는 다음 단계에서 가장 높은 Q 값이 행동의 선택에서 임의의 조치를 선택해야합니다 "다른 : 조치를 = maxQaction" 하지만 지금 쓴 식으로 매번 같은 행동을 선택할 것입니다. 누구든지 가장 높은 Q 값에 대한 선택을 무작위

    -2

    2답변

    현재 Q-learning 알고리즘을 사용하여 에이전트가 보상을받을 수 있도록 C++ 프로그램을 구현하는 방법에 대한 연구를하고 있습니다. 내 상태와 동작을 저장하기 위해 Hashtable을 사용하려고합니다. 저는 C++ 프로그래밍에 익숙하지 않습니다 ... 해시 테이블을 사용하여 배열을 저장하는 것과 같습니다. 하지만 난 그것을 저장할 올바른 방법을 찾을

    0

    1답변

    아래 정의 된 기능을 가진 프로그램을 실행할 때 아래 오류가 나타납니다. 오류의 원인이되는 valid_actions = filter(lambda x: x != random.choice(maxQactions) 부분이라고 생각합니다. 누구든지 문제가 무엇인지 보거나 해결 방법을 제안합니까? 감사. 오류 : choose_action action =

    1

    2답변

    나는 "Achtung Die Kurve"라고도 알려진 간단한 형태의 Curve Fever를 만들었습니다. 나는 기계가 게임을 최적으로하는 방법을 알아 내길 원한다. Google의 Tensorflow로 만든 일부 Atari 게임 예제에서 기존 DQN을 복사하고 약간 수정했습니다. 적절한 보상 기능을 알아 내려고 노력하고 있습니다. 이 모든 충돌 이 올바른 접

    0

    1답변

    나는 7 개의 다른 패널티 값을 가진 500 * 500 그리드를 가지고 있습니다. 작업 공간에 11 개의 작업이 포함 된 RL 에이전트를 만들어야합니다. (왼쪽, 오른쪽, 위, 아래, 4 대각선 방향, 속도, 속도, 정상 속도). 이 문제를 어떻게 해결할 수 있습니까? '수행 된 행동'의 확률은 0.8입니다. 그렇지 않으면 무작위 작업이 선택됩니다. 또한

    0

    1답변

    저는 Q-Learning을 배우고 OpenAI Gym의 FrozenLake-v0 문제에 대해 Q-learner를 구축하려고합니다. 문제는 단지 16 개의 상태와 4 가지 가능한 액션을 가지고 있기 때문에 상당히 간단해야하지만 내 알고리즘이 Q- 테이블을 올바르게 업데이트하지 않는 것처럼 보입니다. import gym import numpy as np f