q-learning

    3

    1답변

    싱글 플레이어 게임의 경우 Q 값 업데이트는 매우 직관적입니다. 현재 상태와 미래 상태는 단일 플레이어의 전략에 따라 다르지만 두 플레이어의 경우에는 그렇지 않습니다. 상대방이 이기고 게임이 종료되는 시나리오를 고려하십시오. Q 값은 어떻게 갱신됩니까?

    1

    1답변

    Q-learning에서 ε-greedy 정책 실행 선택 정책을 구현하고자합니다. 여기에 많은 사람들이, 탐사의 감소 속도에 대한 방정식 다음, 사용하고 ɛ = 전자^(- 욕실) N = 에이전트의 나이 E = 착취 매개 변수 그러나 이 "n"은 무엇을 의미하는지 명확하지 않습니다. 특정 주 - 액션 쌍에 대한 방문수 또는 반복 횟수입니까? 고마워요.

    0

    1답변

    Q-learning 알고리즘에서 동작 선택은 현재 상태와 Q-matrix의 값에 따라 달라집니다. 이 Q 값이 탐색 단계에서만 업데이트되는지 아니면 이용 단계에서도 변경되는지 알고 싶습니다.

    0

    1답변

    Q- 학습은 Q- 학습이 특정 상태 - 행동 쌍이 얼마나 좋은지 측정 한 것입니다. 이것은 일반적으로 다음 중 하나의 방법으로 테이블에 표시됩니다 (그림을 참조하십시오.) : 두 표현은 유효합니까? 특히 상태 전환이 결정적이지 않은 경우 Q- 테이블이 상태에서 상태로의 전환 표 (그림의 맨 위 Q- 표에 표시된 것과 같이)로 주어지면 최상의 조치를 어떻게

    1

    2답변

    모든 보강 학습 알고리즘에서 가장 중요한 과제는 탐사와 개발 간의 균형을 맞추는 것입니다. 장난감 문제에 대해 학습하는 Q를 실행하려고하는데 빠른 엡실론 부식이 발생한다는 것을 알고 있습니다. 에이전트가 더 많은 탐색을 할 수 있고 엡실론 붕괴가 약 0.999가되도록 엡실론을 높게 (0.9 또는 1) 선택했습니다. 엡실론 붕괴를 늦추려면 어떻게해야합니까?

    1

    2답변

    좋아요, 그렇다면 DeepMind의 Atari 알고리즘과 동일한 아이디어를 사용하여 신경 네트워크 Q-learner를 만들었습니다. (아직)). 신경망 빌드 : 9-50와 1 은닉층 ("O"를 "X"-1 빈 자리가 0, 1) 9 개 입력 뉴런 (8)로 출력한다 (다른 크기, 활성화 함수 S 자형으로 시도),536 (모든 행동 1, Q 값, 기동 시그 모이

    1

    1답변

    내가 n-states S = {s1, s2, s3, ..... sn}을 가지고 모든 전이, 즉 T- 행렬 f.e. s1 -> s5 = 0.3, s4 -> s3 = 0.7, ... 등. 상태 -x (s_x)부터 시작하여 가장 높은 점수를받은 시퀀스/경로를 선택하려면 어떤 알고리즘이나 절차를 사용해야합니까? 두 질문 : 무한히 긴 경로에 내가 최선을 평균 가능

    0

    1답변

    안녕하세요, Q-learning에서 에이전트는 목표에 도달 할 때까지 조치를 취합니다. 알고리즘은 수렴을 얻을 때까지 여러 번 실행됩니다. 예를 들어, 목표는 시간 시뮬레이션이 끝날 때까지 최대 처리량을 얻는 것입니다. 시뮬레이션 시간은 n 개의 동등한 기간 T로 나누어지고 보상은 시간에 따라 변합니다. 따라서 요원은 각 기간마다 자신의 상태를 n 번 업데

    0

    1답변

    나는 보강 학습을 공부했지만, 이해할 수없는 것은 Q 값이 어떻게 계산되었는지입니다. 벨만 방정식 Q(s,a) = r + γ*max(Q(s',a'))을 사용한다면, 영원히 계속되지 않을까요? Q(s',a')은 하나의 timestep의 Q 값을 더 필요로하므로 계속해서 계속해서 계속됩니다. 어떻게 끝나나요?

    1

    1답변

    강화 학습을 처음 접했습니다. 최근에 나는 OpenAI 체육관의 CartPole-v0를 해결하기 위해 Deep Q Network를 훈련 시키려고 노력 해왔다. 여기서 해결은 100 회 연속 에피소드에서 최소 195.0 점의 평균 점수를 얻는 것을 의미한다. 나는 2 층 신경망을 사용하여 1 백만 번의 경험, 엡실론 욕심쟁이 정책, RMSProp 최적화 및