reinforcement-learning

2열

2답변

2 개의 입력 노드, 4 개의 숨겨진 노드 및 3 개의 출력 노드로 구성된 신경망을 만들었습니다. 초기 가중치는 -1에서 1 사이의 랜덤입니다. 역 전파 방법을 사용하여 TD 오류로 네트워크를 업데이트합니다. 그러나 성능이 좋지 않습니다. 문제가있는 곳을 알고 싶습니다. 1. 바이어스 노드가 필요합니까? 2. 자격 추적이 필요합니까? 누구든지 샘플 코드를

19열

1답변

특정 보강 학습 알고리즘을 사용하는 경우는 언제입니까?

나는 대학 교육을위한 강화 학습과 서튼의 책 읽기를 공부하고 있습니다. 고전적인 PD, MC, TD 및 Q-Learning 알고리즘 외에도 의사 결정 문제를 해결하기위한 정책 그라디언트 방법과 유전 알고리즘에 대해 읽고 있습니다. 이 주제에서는 이전에 경험 한 적이 없으며 기술을 다른 기술보다 선호해야하는지 이해하는 데 문제가 있습니다. 몇 가지 아이디어가

2열

1답변

Q-학습 : 보상 계산을위한 올바른 상태

Q 학습 무엇 - 보상 나는 Q 학습 알고리즘의 의사 해석하는 데 어려움을 겪고있어 : 1 For each s, a initialize table entry Q(a, s) = 0 2 Observe current state s 3 Do forever: 4 Select an action a and execute it 5 Receive immediat

13열

2답변

최적의 엡실론 (ε-욕심) 값

ε 욕심 정책 가 나는 Q 학습 알고리즘이 탐사 및 착취 사이에 균형을 시도해야한다 알고있다. 필자는이 분야의 초보자이므로 간단한 탐구/착취 동작 버전을 구현하고자했습니다. 최적의 엡실론 값 내 구현은 ε 욕심 정책을 사용하지만 엡실론 값을 결정하기에 올 때 나는 손실에 있어요. 엡실론은 알고리즘이 주어진 (상태, 동작) 쌍을 방문한 횟수 또는 수행 된 반

2열

2답변

Qlearning - 주 및 보상 정의

Q-learning 알고리즘을 사용하는 문제를 해결하는 데 도움이 필요합니다. 문제 설명 : 나는 로켓 임의의 경로를 복용하는 로켓 시뮬레이터를 가지고 때로는 충돌합니다. 로켓에는 켜기 또는 끄기가 가능한 3 가지 엔진이 있습니다. 어떤 엔진이 작동하는지에 따라 로켓은 다른 방향으로 날아갑니다. 모든 시간을 얼굴을 로켓으로 변합니다 Q-학습 컨트롤러를 구축

2열

1답변

최적의 정책에 대한 Q- 학습 수렴

q- 학습을위한 rlglue 기반 python-rl 프레임 워크를 사용하고 있습니다. 나의 이해는 에피소드의 수가 많을수록 알고리즘이 최적의 정책으로 수렴한다는 것입니다. 이는 어떤 상태에서 취할 액션을 나타내는 매핑입니다. 질문 1 :이 말은 수많은 에피소드 (예 : 1000 개 이상) 후에 본질적으로 동일한 상태 : 동작 매핑을 가져야한다는 의미입니까?

0열

1답변

Berkeley Pac-Man Project : 10을 통해 나누어 진 기능

Pac-Man 게임에 대한 강화 학습 에이전트를 코딩하는 데 바쁘다. 특히 버클리의 CS 과정의 Pac-Man Projects, 특히 reinforcement learning section을 접하게된다. 근사 Q- 학습 에이전트의 경우, 피쳐 근사가 사용됩니다. 간단한 추출기는 this code에 구현됩니다. 내가 궁금한 점은 기능이 반환되기 전에 크기가

2열

4답변

은 가능한 최종 상태가없는 Q- 학습입니까?

Q- 러닝으로이 문제를 해결해야합니다. 사실, Q- 학습 기반 정책을 평가해야합니다. 나는 관광 매니저입니다. 나는 n 개의 호텔을 보유하고 있으며 각기 다른 수의 인원을 포함 할 수 있습니다. 내가 호텔에 넣은 사람마다 나는 내가 선택한 방을 기반으로 보상을 얻습니다. 내가 원한다면 나는 그 사람을 살해 할 수도 있기 때문에 호텔에 가지 않는다. 그러나

2열

1답변

신경망과 시간차 학습

시간적 차이 학습에 관한 논문과 강의 (일부는 TD-Gammon에 대한 Sutton 튜토리얼과 같은 신경망 관련)를 읽었지만 방정식을 이해하는 데 어려움을 겪고 있습니다. , 나는 나의 질문으로 이끌었다. - 예측값 V_t는 어디서 오는가? 그리고이어서 V_ (t + 1)을 어떻게 구할 수 있습니까? - TD를 신경망과 함께 사용할 때 정확하게 전파 되나요

4열

1답변

NetLogo에서 강화 학습 구현 (다중 에이전트 모델 학습)

내 모델에서 다양한 유형의 에이전트에 대한 학습 전략을 구현할 생각입니다. 솔직하게 말하면, 나는 어떤 종류의 질문을 먼저해야하는지, 어디에서 시작해야하는지 아직 모른다. 나는 그들이 경험으로 배우기를 원하는 두 가지 유형의 에이전트를 가지고 있으며, 발생할 수있는 특정 상황에 따라 각각 다른 보상을받는 행동 풀이 있습니다. 에이전트가 있습니다 나는 나 자