최적의 정책에 대한 Q- 학습 수렴

q- 학습을위한 rlglue 기반 python-rl 프레임 워크를 사용하고 있습니다. 나의 이해는 에피소드의 수가 많을수록 알고리즘이 최적의 정책으로 수렴한다는 것입니다. 이는 어떤 상태에서 취할 액션을 나타내는 매핑입니다.최적의 정책에 대한 Q- 학습 수렴

질문 1 :이 말은 수많은 에피소드 (예 : 1000 개 이상) 후에 본질적으로 동일한 상태 : 동작 매핑을 가져야한다는 의미입니까?

보상 (또는 보상 100 회 이상 평균)을 플롯 할 때 this link의 그림 6.13과 유사한 그래프가 표시됩니다.

질문 2 : 알고리즘이 어떤 정책에 수렴하면 보상이 왜 떨어질까요? 보상이 크게 달라질 가능성이 있습니까?

질문 3 : 다양한 RL 알고리즘의 결과를 비교하는 데 사용할 수있는 표준 방법이 있습니까?

출처

2014-04-15 okkhoy

1 : 둘 이상의 매핑이 최적이 아닌 경우 단일 매핑으로 수렴됩니다.

Q2 : Q-Learning에는 임의적이고 잠재적으로 차선책 인 이동을 수행하는 빈도를 결정하는 탐색 매개 변수가 있습니다. 이 매개 변수가 0이 아닌 한 보상은 변동합니다.

질문 3 : 제공 한 링크 에서처럼 그래프에 보상을주십시오. http://rl-community.org을 확인하십시오.

출처

2014-04-15 09:12:50

Q2 및 Q3에 대해 명확히 설명해 주셔서 감사합니다 (링크). Q1에 대한 후속 질문이 있습니다. 어떻게 매핑이 최적인지 판단 할 수 있습니까? 보상이 다양하다면, N 개의 각각의 최적 매핑과 검사를 실행하는 평균을 취할 수 있습니까? (질문이 너무 순진하지만 여전히 배우는 중이라면 미안) – okkhoy

지도가 일정한 단계 동안 안정 될 때까지 기다리거나 보상 그래프를 살펴보고 탐색 수준의 변동을 제외하고 어디에서 수평이 떨어지는 지 확인할 수 있습니다. –

@ Reonba 감사합니다. – okkhoy

최적의 정책에 대한 Q- 학습 수렴

답변

관련 문제