2013-05-04 1 views
0

Pac-Man 게임에 대한 강화 학습 에이전트를 코딩하는 데 바쁘다. 특히 버클리의 CS 과정의 Pac-Man Projects, 특히 reinforcement learning section을 접하게된다.Berkeley Pac-Man Project : 10을 통해 나누어 진 기능

근사 Q- 학습 에이전트의 경우, 피쳐 근사가 사용됩니다. 간단한 추출기는 this code에 구현됩니다. 내가 궁금한 점은 기능이 반환되기 전에 크기가 10으로 축소 된 이유는 무엇입니까? 팩터 10없이 솔루션을 실행하면 Pac-Man이 현저히 나빠지는 것을 알 수 있습니다. 왜 그런가?

답변

0

여러 번의 테스트를 실행 한 결과 최적의 Q 값이 크게 벗어나게됩니다. 실제로 Pacman이 약을 먹기 위해 기울이는 기능조차도 모두 부정적으로 나타날 수 있습니다. 그래서 그는 단지 그곳에 서서 결국에는 유령들로부터 도망치려하지만 레벨을 끝내려하지 않습니다.

나는 이것이 훈련에서 졌을 때 일어난다 고 생각합니다. 부정적인 보상이 시스템을 통해 퍼지고 유령의 숫자가 1보다 클 수 있기 때문에 이것은 가중치에 큰 영향을 미치므로 모든 것이됩니다. 매우 부정적이며 시스템이이를 "복구"할 수 없습니다.

나는 단지 #-of-ghosts-one-step-away 기능을 확장 할 수있는 특징 추출기를 조정하여를 확인하고 팩맨이 질문은 이제 더 mathsy하고 다른 stackexchange에 더 잘 맞는 수도 돌이켜 보면 훨씬 더 나은 결과를

를 얻기 위해 관리합니다.