아는 한 특정 정책 \ pi에 대해 시간적 차이를 학습하면 해당 정책 \ pi 다음에 나오는 예상 값을 계산할 수 있지만 특정 정책을 아는 의미는 무엇입니까?시간차 학습을 사용하는 것은 무엇입니까?
주어진 환경에서 최적의 정책을 찾아야하지 않습니까? 시간차 학습을 사용하여 특정 \ pi를하는 것은 무엇입니까?
아는 한 특정 정책 \ pi에 대해 시간적 차이를 학습하면 해당 정책 \ pi 다음에 나오는 예상 값을 계산할 수 있지만 특정 정책을 아는 의미는 무엇입니까?시간차 학습을 사용하는 것은 무엇입니까?
주어진 환경에서 최적의 정책을 찾아야하지 않습니까? 시간차 학습을 사용하여 특정 \ pi를하는 것은 무엇입니까?
당신이 말했듯이 주어진 정책에 대한 가치 함수를 찾는 것만이 목표가 최적의 정책을 찾는 일반적인 경우에는별로 유용하지 않습니다. 그러나 SARSA
또는 Q-learning
과 같은 몇 가지 클래식 알고리즘은 특별한 경우 인 generalized policy iteration
으로 볼 수 있습니다. 가장 어려운 부분은 정책의 가치 기능을 찾는 부분입니다. 일단 가치 함수를 알게되면 더 나은 정책을 찾은 다음 최근 계산 된 정책의 가치 함수를 다시 찾는 것이 쉬워집니다. 이 과정은 몇 가지 조건이 주어지면 최적의 정책으로 수렴됩니다.
요약하면 temporal difference learning
은 최적의 정책을 찾을 수있는 다른 알고리즘의 핵심 단계입니다.