q-learning

1열

1답변

Programmaticaly 다음 최대에 대한 상태 (Q (들 ', A'))에서 찾을 R

나는 R.를 사용하여 간단한 그리드 세계 Q-학습 프로그램을 쓰고 있어요 사용이 내 그리드 세계입니다 Q를 학습 이 간단한 그리드 세계에는 상태 1과 상태 6이 시작 및 끝나는 6 개의 상태가 있습니다. 나는 화재 구덩이, 벽, 바람을 추가하여 가능한 한 단순한 그리드 세계를 유지하는 것을 피했다. 보상 매트릭스에 대해서는 상태 값 -0.1 및 종료 상태

0열

1답변

알 수없는 환경에서 Q- 학습이 어떻게 작동합니까?

Q-learning은 인스턴트 보상 매트릭스 R을 사용하여 환경을 모델링합니다. 즉, 학습을 위해 알려진 행렬 R을 사용한다는 것을 의미합니다. 그렇다면 "Q- 학습은 알 수없는 환경에서 작동 할 수 있습니까?"

2열

1답변

Keras의 네트워크 출력을 하나만 교육하십시오.

많은 출력을 가진 Keras에 네트워크가 있지만 교육 데이터는 한 번에 하나의 출력에 대한 정보 만 제공합니다. 교육용 방법은 문제의 입력에 대한 예측을 실행하고, 훈련중인 특정 출력의 값을 변경 한 다음 단일 일괄 업데이트를 수행하는 것이 었습니다. 내가 옳다면, 이것은 내가 훈련하려고하는 것을 제외하고는 모든 산출물의 손실을 0으로 설정하는 것과 같습니

1열

1답변

Javascript - 긴 반복 동안 Chrome이 페이지가 죽는 것을 방지합니다.

Chrome은 연결 4 브라우저 게임이 정상적으로 실행될 때 페이지를 계속 파괴합니다. 이 게임은 플레이어 대 컴퓨터 설정이며 게임 자체가 올바르게 실행되며 절대로 충돌하지 않습니다. 컴퓨터 상대를 훈련시키기에 너무 높은 반복 횟수를 설정하면 페이지가 충돌합니다. 프로그램은 qLearning 알고리즘을 사용하여 ai를 훈련시키고 각 알고리즘은 자신을 재생하

0열

1답변

tictactoe 검색 공간을 미리 주문하여 모든 주를 생성하지 않음

tictactoe에 q-learning을 구현하려고합니다. 이를 수행하는 단계 중 하나는 tictactoe 보드의 가능한 모든 상태를 열거하여 상태 - 값 테이블을 형성하는 것입니다. 빈 보드에서 시작하여 가능한 모든 상태를 재귀 적으로 생성하는 절차를 작성했습니다. 이렇게하기 위해서, 나는 검색 공간 트리의 선주문 순회를 암묵적으로 수행하고있다. 내가 법

1열

1답변

Pybrain reinforcement learning; 차원의 차원

저는 Pybrain 패키지를 사용하여 강화 학습과 교통 신호 시뮬레이션을 결합하는 프로젝트를 진행하고 있습니다. 자습서를 읽고 Environment 및 Task이라는 고유 한 서브 클래스를 구현했습니다. 예를 들어 각 차선에서 대기하는 차의 수, 차선 당 총 대기 시간 등과 같은 정보를 포함 할 수 있도록 연속 된 값을 가진 벡터로 내 상태를 원하기 때문에

3열

3답변

강화 학습 대 동적 프로그래밍

동적 학습에서 강화 함수 (함수 근사 대신)를 사용한 강화 학습 (Q- 학습)이 있습니까?

1열

1답변

각 상태에 동일한 동작 집합이없는 함수 근사를 사용한 Q- 학습

각 상태에 동일한 동작 집합이없는 문제에 함수 근사를 적용하여 Q- 학습을 적용하고 있습니다. 존재시 각 상태이므로 작업 동일한 세트가 없기 때문에 타겟팅 대상 = R (S, A, S ') + (max_a'* Q (S ', A')) 를 산출하고 내 상태 정의 내에서 일련의 작업을 포함해야합니까? 그렇지 않으면 두 상태가 다른 기능에서 매우 유사 할 수 있다

0열

1답변

뉴럴 네트워크 근사화 된 보상 함수

Q-learning에서 일반적인 Q- 함수를 일반적인 Feed-Forward Neural Network로 근사하면 보상 함수를 어떻게 나타내야합니까? 목표에 '가까운', '매우 가깝다'등의 이산 값으로 표시해야합니까? 내가 염려하는 것 중 하나는 Q- 신경망 근사치로 이미 이동 한만큼, function Q(s, a, θ) 그리고 룩업 테이블을 더 이상 사용

1열

1답변

Q-Learning 알고리즘이 과부하가 될 수 있습니까?

Q-Learning 알고리즘이 고유 한 최적 정책의 Q에 수렴한다는 것이 입증되었습니다. 그렇다면 Q-Learning 알고리즘이 과도하게 될 수 없다는 결론을 내리는 것이 맞습니까?