16

강화 학습 설정에서 최상의 작업을 수행하는 데 필요한 마우스 동작을 배우기 위해 에이전트를 얻으려고합니다 (즉, 보상 신호가 배우기).지속적인 * 작업 * 공간으로 작업하기 위해 Q- 학습 일반화

Q- 학습 기술을 사용하고 싶지만 a way to extend this method to continuous state spaces을 찾았지만 연속 동작 공간에서 문제를 해결하는 방법을 찾지 못했습니다.

모든 마우스 움직임을 특정 크기와 다른 방향으로 만 강제 할 수는 있지만 작업을 이산 적으로 만드는 합리적인 방법은 거대한 동작 공간을 산출합니다. 표준 Q- 학습에서는 상담원이 가능한 조치를 평가해야하기 때문에 이러한 근사값으로는 실제적인 의미에서 문제가 해결되지 않습니다.

답변

7

이 문제를 처리하는 일반적인 방법은 actor-critic methods입니다. 이들은 자연스럽게 연속적인 행동 공간으로 확장됩니다. 근사치로 작업 할 때 기본 Q- 학습이 갈라 지지만 여전히 사용하고 싶다면 "Applications of the self-organising map to reinforcement learning"과 같이자가 구성지도와 결합 해보십시오. 이 백서에는 유용한 추가 참고 자료가 포함되어 있습니다.

+0

와우, 둘 다 그 소리가 스폿 온입니다. 나는 그들이 그것을 기대하고 예상대로 일하면 답을 받아 들일 것입니다. – zergylord

3

당신이하는 일에 대해 나는 당신이 연속적인 행동 공간에서 일할 필요가 없다고 생각합니다. 실제 마우스는 연속적인 공간에서 움직이지만 내부적으로 커서는 이산 단계 (일반적으로 픽셀 수준)로만 움직이므로이 임계 값을 초과하는 정밀도는 에이전트의 성능에 아무런 영향을주지 않는 것처럼 보입니다. 상태 공간은 여전히 ​​크지 만 유한하고 분리되어 있습니다.

+0

이것은 내가 이산 근사법에 관해 언급 한 문제를 소개합니다.하지만 (가능한 한 모든 좌표 쌍을 가능한 동작으로 생각하는 것은 실현 불가능합니다. – zergylord

+0

@templatetypedef에 동의합니다. 연속 된 상태 공간과 함께 개별 동작을 사용할 수 있습니다. 이산 작업은 작업하기에 훨씬 더 좋습니다. – danelliottster

9

강화 학습을 연속 작업으로 확장하는 데는 여러 가지 방법이 있습니다. 한 가지 방법은 배우 비평 방식을 사용하는 것입니다. 또 다른 방법은 정책 구배 방법을 사용하는 것입니다.

는 는 다른 방법의 다소 광범위한 설명은 온라인으로 사용할 수 있습니다 다음 논문에서 찾을 수 있습니다

: 올해에 Reinforcement Learning in Continuous State and Action Spaces

+1

행위자 비평 방식은 정책 기울기 방법의 한 유형입니다. 파라미터 화 된 액터는 정책을 구현하고 매개 변수는 비평가가 추정 한 액터 성능의 그래디언트 방향으로 이동합니다. – HelloGoodbye

+0

주어진 링크가 깨졌습니다. –

+0

끊어진 링크는 "hasselt"라고 말합니다. 아마도이 링크 일 것입니다. http://oai.cwi.nl/oai/asset/19689/19689B.pdf – dasWesen

11

빨리 감기, DeepMind에서 사람들은 처리를 위해 배우 비평가 방법을 학습 깊은 강화를 제안한다 모두 연속 상태 및 작업 공간. 결정론적인 정책 그라디언트라는 기술을 기반으로합니다. 신문 Continuous control with deep reinforcement learning과 일부 implementations을 참조하십시오.

+4

예, 정말 보강 학습을 대중화했습니다. 이제는 지속적인 행동을 처리 할 수있는 몇 가지 방법이 있습니다! 내가 생각하기에 가장 관련이있는 것은 Q- 러닝 알고리즘이 그 핵심이기 때문에 정규화 된 이점 함수를 사용한 Q- 학습입니다.그것은 단지 행동 값을 이차 형태로 만든다. 그리하여 탐욕스러운 행동을 분석적으로 얻을 수있다. https://arxiv.org/pdf/1603.00748.pdf – zergylord

+0

Atari 문서 https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf – Shaun

+0

도 확인해보십시오. 고맙습니다. –