답변

2

Q- 학습은 Temporal difference learning 알고리즘입니다. 가능한 모든 상태 (보드)에 대해 사용 가능한 동작 (이동)의 가치를 학습합니다. 그러나 Minimax과 함께 사용하기에는 적합하지 않습니다. Minimax 알고리즘에는 해당 위치의 작업 값이 아닌 위치 값을 반환하는 평가 함수가 필요하기 때문입니다.

그러나 시간적 차이 방법을 사용하여 이러한 평가 함수를 학습 할 수 있습니다. 특히, Gerald Tesauro는 TD (λ) ("TD lambda") 알고리즘을 사용하여 인간 경쟁적 주사위 놀이 프로그램 인 TD-Gammon을 만들었습니다. 그는 here이라는 접근법을 설명하는 기사를 썼습니다.

나중에 TD (λ)가 TDLeaf (λ)로 확장되었으므로 특히 Minimax 검색을 더 잘 처리합니다. TDLeaf (λ)는 예를 들어 체스 프로그램 KnightCap에서 사용되었습니다. TDLeaf에 관해서는 this paper에서 읽을 수 있습니다.

0

Minimax를 사용하면 미래의 움직임을보고 해당 시간대에서 득점 기회를 극대화 할 수 있습니다. 이것은 Connect-4에 좋으며, 게임이 거의 언제든지 끝날 수 있으며 매 회전마다 사용할 수있는 이동 횟수는 그다지 크지 않습니다. Q-Learning은 Minimax 검색을 안내하는 가치 함수를 제공합니다.