연속 상태 (dim = 20) 및 개별 동작 (3 가지 가능한 동작)이있는 환경에서 최적의 정책을 찾으려고합니다. 그리고 구체적인 순간이 있습니다 : 최적의 정책을 위해 하나의 행동 ("행동 0"이라 부름)은 다른 두 가지보다 훨씬 더 자주 선택되어야합니다 (100 번 이상,이 두 가지 행동은 더 위험합니다).연속 상태, 개별 동작에 대한 강화 학습 알고리즘
나는 NN 값 - 근사치로 Q- 학습을 시도했다. 결과는 다소 나빴습니다. NN은 항상 "액션 0"을 선택한다는 것을 알았습니다. NN 가중치에 대한 정책 그래디언트 방법이 도움이 될 수 있다고 생각하지만 개별 작업에이 정책을 사용하는 방법을 이해하지 못합니다.
시도해 볼 것을 조언 해 주시겠습니까? (아마도 알고리즘, 읽을 논문). 상태 공간이 연속이고 동작 공간이 이산 상태 일 때 최첨단 RL 알고리즘은 무엇입니까?
감사합니다.
큰 감사합니다! 위의 방법을 시도하고 결과에 대해 나중에 작성하겠습니다. – centuri0n
여러분을 환영합니다! 나는 당신의 결과에 대해 듣기를 고대하고 있습니다. –