0
많은 보강 학습 (RL) 논문에서 Markov Decision Process (MDP)는 RL 문제의 일반적인 문제 설정입니다. 이 환경의 진정한 이점은 무엇입니까? 일부 논문에서는 MDP 가정을 명백히 위반하는 정책 네트워크 구조로 LSTM을 사용합니다.보강 학습에서 MDP 설정이 필요한 이유
많은 보강 학습 (RL) 논문에서 Markov Decision Process (MDP)는 RL 문제의 일반적인 문제 설정입니다. 이 환경의 진정한 이점은 무엇입니까? 일부 논문에서는 MDP 가정을 명백히 위반하는 정책 네트워크 구조로 LSTM을 사용합니다.보강 학습에서 MDP 설정이 필요한 이유
기본적으로 Markov 결정 프로세스는 알고리즘의 수렴 보증 및 기타 이론적 특성을 분석 할 수있는 이론적 프레임 워크를 제공합니다. RL과 결합 된 LSTM 및 기타 심층 학습 접근법은 인상적인 결과를 얻었지만 알고리즘이 유용한 것을 배우게 될 때 또는 학습 된 정책이 최적의 것에서 얼마나 멀어 질지를 이해하거나 보장 할 수있는 견고한 이론적 배경이 부족합니다.