2013-10-28 2 views
0

보강 학습에서 상태 - 행동을 저장하기 위해 Q-Table을 사용할 때 어떤 상태가 발생하지 않거나 거의 발생하지 않으며 최대 반복까지 상태 활동 값이 0으로 유지됩니다. Q-Table을 사용하는 대신 신경망으로 Q-Table을 온라인으로 추정하십시오.신경망으로 Q-Table을 온라인으로 추정

어떤 유형의 신경망을 사용하면 이러한 종류의 문제를 더 정확하게 예측할 수 있으며이 솔루션이 도움이됩니까?

답변

0

i는 함수 근사법을 사용하여 LWR (approximated weight approximation regression)을 으로 사용하고 테이블을이 함수로 바꾸기 만하면됩니다.