중간에 100의 보상 하나를 사용하여 크기 (nx n)의 격자에서 Q 학습을 구현했습니다. 에이전트는 다음 기관에서 목표에 도달하기 위해 1000 개의 신기원을 학습합니다. 그는 최고 상태 - 행동 값을 가진 이동을 확률 0.8로 선택하고 무작위 이동을 0.2 씩 선택합니다. 이동 후 상태 - 동작 값은 Q 학습 룰에 의해 갱신된다.Q 학습 : 환경을 바꾼 후 다시 읽는 것
이제 다음 실험을 수행했습니다. 목표 옆의 모든 필드는 맨 아래에있는 이웃을 제외하고는 -100의 보상을 받았습니다. 에이전트는 1000 개의 신기원을 학습 한 후 최상위로가는 것을 명확히 피하고 바닥에서 가장 자주 목표에 도달합니다.
학습 한 후 상태 작동 값 맵을 고수하면서 하단 이웃의 보상을 -100으로 설정하고 상단 네이버를 0으로 다시 설정하고 다시 1000 에포크를 학습합니다. 사실 그것은 끔찍한 일입니다! 에이전트는 목표를 찾기 위해 아주 오래 필요합니다 (9x9 그리드에서 최대 3 분). 경로를 확인한 후에 에이전트가 (0,0) -> (1,0) -> (0,0) -> (1,0)과 같은 두 상태 사이를 오랜 시간을 보냈다는 것을 알았습니다 ...
이 동작이 이해가되는지 상상하기가 어렵습니다. 이런 상황에 처한 사람이 있습니까?