2014-11-13 6 views
0

저는 현재 Markov 결정 프로세스에 대한 동적 프로그래밍 솔루션을 연구 중입니다. 나는 VI와 PI에 대한 적절한 파악력을 가지고 있고 PI에 대한 동기가 나에게 분명하다고 느낍니다. 올바른 상태 유틸리티를 수렴하는 것은 불필요한 작업처럼 보입니다. 필요한 모든 것이 올바른 정책 일 것입니다. 그러나, 나의 실험 중 어떤 것도 런타임 측면에서 PI를 유리하게 보여주지 못합니다. 상태 공간의 크기와 할인 요인에 관계없이 일관되게 더 오래 걸리는 것으로 보입니다.값 반복 대신 정책 반복을 사용하는 경우

이는 (BURLAP 라이브러리를 사용하고 있습니다.) 또는 내 부분에 대한 불량한 실험 때문일 수 있습니다. 그러나 이러한 추세조차도 이익을 보이지 않는 것처럼 보입니다. PI의 BURLAP 구현은 실제로 각 반복에서 제한된 VI 변형을 실행하는 "수정 된 정책 반복"이라는 점에 유의해야합니다. 내 질문에 당신은 (수정 된) PI가 VI를 능가해야만하는 이론적 또는 실용적인 상황을 알고 있습니까?

+0

나는 이상한 편집을 찾습니다. 네, 이것은 mdps와 관련이 있습니다. 그러나 이것 역시 전형적인 동적 프로그래밍 방정식 인 bellman 방정식을 기반으로합니다. – kylejmcintyre

답변