Q-learning 알고리즘을 사용하는 문제를 해결하는 데 도움이 필요합니다.Qlearning - 주 및 보상 정의
문제 설명 :
나는 로켓 임의의 경로를 복용하는 로켓 시뮬레이터를 가지고 때로는 충돌합니다. 로켓에는 켜기 또는 끄기가 가능한 3 가지 엔진이 있습니다. 어떤 엔진이 작동하는지에 따라 로켓은 다른 방향으로 날아갑니다.
모든 시간을 얼굴을 로켓으로 변합니다 Q-학습 컨트롤러를 구축 : 온/오프 엔진을 켜기위한
기능
작업
사용할 수 있습니다.
로켓의 각도를 읽는 센서를 입력으로 사용할 수 있습니다.
내 솔루션 : 나는 다음과 같은 상태가
:
또한 다음과 같은 작업이 있습니다에
- 모든 엔진
- 에
- 중간 엔진에
- 우측 엔진은 왼쪽과 오른쪽에
- 는
- 오른쪽 중간
에 다음과 같은 보상에 왼쪽 중간 :
각도 = 0 , 보상 = 100 다른 모든 각도, 보상 = 0
질문 :
지금이 질문은 좋은 보상과 주 선택입니까? 솔루션을 개선 할 수 있습니까? 다른 각도에 대한 보상이 더 좋은가요?
미리 감사드립니다.
이 게임의 목표는 무엇입니까? 달 착륙시 로켓 착륙? 아니면 그냥 arround 비행하고 충돌하지 않아도됩니까? –
안녕하세요. 목표는 북쪽을 향하고 위쪽으로 날아가는 것입니다. 항상 날아 다니지 만 상향 비행을해야합니다. 충돌해서는 안됩니다. 그것이 북쪽에 도달하고 더 기울어 질 때, 그것은 시작됩니다. – mrjasmin
. 현재 솔루션으로는 위쪽으로 날아 갔지만 최적화되지 않았습니다. – mrjasmin