2017-04-07 6 views
3

싱글 플레이어 게임의 경우 Q 값 업데이트는 매우 직관적입니다. 현재 상태와 미래 상태는 단일 플레이어의 전략에 따라 다르지만 두 플레이어의 경우에는 그렇지 않습니다. 상대방이 이기고 게임이 종료되는 시나리오를 고려하십시오. Q 값은 어떻게 갱신됩니까?두 플레이어 게임의 Q 값을 어떻게 업데이트합니까?

답변

1

한 가지 공통적 인 접근 방법은 상대방을 환경의 일부로 간주하는 것이므로 국가는 말, 상대방의 위치를 ​​포함하도록 정의됩니다. 액션을 선택하고 실행하여 상태를 수정합니다. 상대방은 자신의 행동을 취하여 다시 상태를 수정합니다. 그런 다음 에이전트는 이전 작업 인 과 이전 작업 인의 결과 인 상태 소수를 수신합니다.

그래서 경우에 상태 s 당신이 상대의 행위를 다음 행동 a을 가지고 게임을 종료하는, 당신은 a를 통해 단말 상태로 s에서 전환을 기록 할 것입니다.