강화 학습 설정에서 최상의 작업을 수행하는 데 필요한 마우스 동작을 배우기 위해 에이전트를 얻으려고합니다 (즉, 보상 신호가 배우기).지속적인 * 작업 * 공간으로 작업하기 위해 Q- 학습 일반화
Q- 학습 기술을 사용하고 싶지만 a way to extend this method to continuous state spaces을 찾았지만 연속 동작 공간에서 문제를 해결하는 방법을 찾지 못했습니다.
모든 마우스 움직임을 특정 크기와 다른 방향으로 만 강제 할 수는 있지만 작업을 이산 적으로 만드는 합리적인 방법은 거대한 동작 공간을 산출합니다. 표준 Q- 학습에서는 상담원이 가능한 조치를 평가해야하기 때문에 이러한 근사값으로는 실제적인 의미에서 문제가 해결되지 않습니다.
와우, 둘 다 그 소리가 스폿 온입니다. 나는 그들이 그것을 기대하고 예상대로 일하면 답을 받아 들일 것입니다. – zergylord