표준 7 * 6 보드를 고려하십시오. Q-Learning 알고리즘을 적용하려고한다고 가정합니다. 그것을 적용하기 위해 모든 가능한 상태와 행동을 필요로합니다. 3^(7 * 6) = 150094635296999121이 될 수 있습니다. 이것들을 저장할 가능성이 없으므로, 나는 법적 상태만을 고려하고 있습니다.네 개의 연결하는 모든 법적 국가 - 행동 쌍을 생성하는 방법?
모든 법적 상태 및 조치에 대해 Q (s, a)를 생성하려면 어떻게해야합니까?
이것은 내 숙제가 아닙니다. 나는 보강 알고리즘에 대해 배우려고 노력하고있다. 나는 이틀 만에 이것에 관해 조사해왔다. 내가 얻은 가장 가까운 것은 법적인 국가만을 고려하는 것입니다.
1.Done - 다음 이동은 nextMove()에 의해 생성됩니다. 2. 완료 - applyMove (nextMove())에 의해 새로운 상태가 반환됩니다. 3. 완료 - 보드를 가로, 세로, 대각선으로 평가하는 기능이 있습니다. 하지만 내 질문은 이것이 아닙니다. Q-Learning 알고리즘의 첫 단계 인 모든 (합법적 인) 국가 - 행동 쌍이 필요합니다. 질문을 더 명확하게하기 위해 편집했습니다. –