Pac-Man 게임에 대한 강화 학습 에이전트를 코딩하는 데 바쁘다. 특히 버클리의 CS 과정의 Pac-Man Projects, 특히 reinforcement learning section을 접하게된다.Berkeley Pac-Man Project : 10을 통해 나누어 진 기능
근사 Q- 학습 에이전트의 경우, 피쳐 근사가 사용됩니다. 간단한 추출기는 this code에 구현됩니다. 내가 궁금한 점은 기능이 반환되기 전에 크기가 10으로 축소 된 이유는 무엇입니까? 팩터 10없이 솔루션을 실행하면 Pac-Man이 현저히 나빠지는 것을 알 수 있습니다. 왜 그런가?