q-learning

16열

4답변

강화 학습 설정에서 최상의 작업을 수행하는 데 필요한 마우스 동작을 배우기 위해 에이전트를 얻으려고합니다 (즉, 보상 신호가 배우기). Q- 학습 기술을 사용하고 싶지만 a way to extend this method to continuous state spaces을 찾았지만 연속 동작 공간에서 문제를 해결하는 방법을 찾지 못했습니다. 모든 마우스 움직임

2열

2답변

Qlearning - 주 및 보상 정의

Q-learning 알고리즘을 사용하는 문제를 해결하는 데 도움이 필요합니다. 문제 설명 : 나는 로켓 임의의 경로를 복용하는 로켓 시뮬레이터를 가지고 때로는 충돌합니다. 로켓에는 켜기 또는 끄기가 가능한 3 가지 엔진이 있습니다. 어떤 엔진이 작동하는지에 따라 로켓은 다른 방향으로 날아갑니다. 모든 시간을 얼굴을 로켓으로 변합니다 Q-학습 컨트롤러를 구축