q- 학습을위한 rlglue 기반 python-rl 프레임 워크를 사용하고 있습니다. 나의 이해는 에피소드의 수가 많을수록 알고리즘이 최적의 정책으로 수렴한다는 것입니다. 이는 어떤 상태에서 취할 액션을 나타내는 매핑입니다.최적의 정책에 대한 Q- 학습 수렴
질문 1 :이 말은 수많은 에피소드 (예 : 1000 개 이상) 후에 본질적으로 동일한 상태 : 동작 매핑을 가져야한다는 의미입니까?
보상 (또는 보상 100 회 이상 평균)을 플롯 할 때 this link의 그림 6.13과 유사한 그래프가 표시됩니다.
질문 2 : 알고리즘이 어떤 정책에 수렴하면 보상이 왜 떨어질까요? 보상이 크게 달라질 가능성이 있습니까?
질문 3 : 다양한 RL 알고리즘의 결과를 비교하는 데 사용할 수있는 표준 방법이 있습니까?
Q2 및 Q3에 대해 명확히 설명해 주셔서 감사합니다 (링크). Q1에 대한 후속 질문이 있습니다. 어떻게 매핑이 최적인지 판단 할 수 있습니까? 보상이 다양하다면, N 개의 각각의 최적 매핑과 검사를 실행하는 평균을 취할 수 있습니까? (질문이 너무 순진하지만 여전히 배우는 중이라면 미안) – okkhoy
지도가 일정한 단계 동안 안정 될 때까지 기다리거나 보상 그래프를 살펴보고 탐색 수준의 변동을 제외하고 어디에서 수평이 떨어지는 지 확인할 수 있습니다. –
@ Reonba 감사합니다. – okkhoy