q-learning

    0

    1답변

    보강 학습에서 상태 - 행동을 저장하기 위해 Q-Table을 사용할 때 어떤 상태가 발생하지 않거나 거의 발생하지 않으며 최대 반복까지 상태 활동 값이 0으로 유지됩니다. Q-Table을 사용하는 대신 신경망으로 Q-Table을 온라인으로 추정하십시오. 어떤 유형의 신경망을 사용하면 이러한 종류의 문제를 더 정확하게 예측할 수 있으며이 솔루션이 도움이됩니까

    2

    1답변

    Q 학습 무엇 - 보상 나는 Q 학습 알고리즘의 의사 해석하는 데 어려움을 겪고있어 : 1 For each s, a initialize table entry Q(a, s) = 0 2 Observe current state s 3 Do forever: 4 Select an action a and execute it 5 Receive immediat

    13

    2답변

    ε 욕심 정책 가 나는 Q 학습 알고리즘이 탐사 및 착취 사이에 균형을 시도해야한다 알고있다. 필자는이 분야의 초보자이므로 간단한 탐구/착취 동작 버전을 구현하고자했습니다. 최적의 엡실론 값 내 구현은 ε 욕심 정책을 사용하지만 엡실론 값을 결정하기에 올 때 나는 손실에 있어요. 엡실론은 알고리즘이 주어진 (상태, 동작) 쌍을 방문한 횟수 또는 수행 된 반

    4

    1답변

    기계 학습에 대한 배경 지식이 거의 없으므로 내 질문이 어리석은 경우 용서해주세요. 제가 읽은 바에 따르면이 모델에 대한 최고의 모델없는 강화 학습 알고리즘은 Q-Learning입니다. Q-Learning에서는 각 국가와 에이전트 세계의 액션 쌍에 q 값이 주어지며 각 상태에서 가장 높은 q 값을 갖는 동작이 선택됩니다. q- 값은 다음과 같이 갱신된다.

    -3

    1답변

    심층 q- 학습이란 무엇입니까? 그것은 깊은 보강 학습과 동일합니까? 깊은 신경 네트워크는 어떻게 발생합니까? 깊이있는 q- 학습을 할 수있는 심층 신경 회로망에 무엇이 추가되어야 하는가? 누군가 깊은 Q 학습을위한 자습서를 보낼 수 있습니까? 나는 단지 그것을 위해 현재 사용되고있는 알고리즘을 배우고 싶다. 감사합니다.

    2

    1답변

    q- 학습을위한 rlglue 기반 python-rl 프레임 워크를 사용하고 있습니다. 나의 이해는 에피소드의 수가 많을수록 알고리즘이 최적의 정책으로 수렴한다는 것입니다. 이는 어떤 상태에서 취할 액션을 나타내는 매핑입니다. 질문 1 :이 말은 수많은 에피소드 (예 : 1000 개 이상) 후에 본질적으로 동일한 상태 : 동작 매핑을 가져야한다는 의미입니까?

    4

    1답변

    그래서 Q- 학습 및 신경망에 대해 읽었습니다. 그러나 나는 올바른 생각을 가지고 있다고 믿지만, NN에 대한 나의 코드와 Q-value로 업데이트하는 것에 대한 2 차 의견을 갖고 싶습니다. Mountain Car 문제와 신경망의 MatLab 구현을 만들었으므로 신경망 도구 상자를 NN 부분에 사용하고 있습니다. 그것은 (실험용) 숨겨진 2 개 입력, 5

    2

    4답변

    Q- 러닝으로이 문제를 해결해야합니다. 사실, Q- 학습 기반 정책을 평가해야합니다. 나는 관광 매니저입니다. 나는 n 개의 호텔을 보유하고 있으며 각기 다른 수의 인원을 포함 할 수 있습니다. 내가 호텔에 넣은 사람마다 나는 내가 선택한 방을 기반으로 보상을 얻습니다. 내가 원한다면 나는 그 사람을 살해 할 수도 있기 때문에 호텔에 가지 않는다. 그러나

    4

    1답변

    내 모델에서 다양한 유형의 에이전트에 대한 학습 전략을 구현할 생각입니다. 솔직하게 말하면, 나는 어떤 종류의 질문을 먼저해야하는지, 어디에서 시작해야하는지 아직 모른다. 나는 그들이 경험으로 배우기를 원하는 두 가지 유형의 에이전트를 가지고 있으며, 발생할 수있는 특정 상황에 따라 각각 다른 보상을받는 행동 풀이 있습니다. 에이전트가 있습니다 나는 나 자

    3

    4답변

    중간에 100의 보상 하나를 사용하여 크기 (nx n)의 격자에서 Q 학습을 구현했습니다. 에이전트는 다음 기관에서 목표에 도달하기 위해 1000 개의 신기원을 학습합니다. 그는 최고 상태 - 행동 값을 가진 이동을 확률 0.8로 선택하고 무작위 이동을 0.2 씩 선택합니다. 이동 후 상태 - 동작 값은 Q 학습 룰에 의해 갱신된다. 이제 다음 실험을 수행