0

많은 보강 학습 (RL) 논문에서 Markov Decision Process (MDP)는 RL 문제의 일반적인 문제 설정입니다. 이 환경의 진정한 이점은 무엇입니까? 일부 논문에서는 MDP 가정을 명백히 위반하는 정책 네트워크 구조로 LSTM을 사용합니다.보강 학습에서 MDP 설정이 필요한 이유

답변

2

기본적으로 Markov 결정 프로세스는 알고리즘의 수렴 보증 및 기타 이론적 특성을 분석 할 수있는 이론적 프레임 워크를 제공합니다. RL과 결합 된 LSTM 및 기타 심층 학습 접근법은 인상적인 결과를 얻었지만 알고리즘이 유용한 것을 배우게 될 때 또는 학습 된 정책이 최적의 것에서 얼마나 멀어 질지를 이해하거나 보장 할 수있는 견고한 이론적 배경이 부족합니다.