몬테카를로 시뮬레이션에서 "마지막 좋은 응답"과 "신속한 행동 가치 추정"의 개념은 무엇입니까?

나는 16 진수 게임에 대한 Monte Carlo Tree Search를 기반으로 한 간단한 16 진수 플레이어를 개발했습니다. 이제 RAVE (Rapid Action Value Estimation)와 LGP (Last Good Repeating)를 사용하여 육각형 플레이어를 확장하고 싶습니다. 기사는 here과 here입니다.
여기있는 사람이 트리 검색 성능을 향상시키기 위해 이러한 방법을 사용했는지 알고 궁금한 점이 있습니까?
또한 이러한 알고리즘이 AMAF (All Moves As First) 휴리스틱이라고 불리는 이유를 알고 싶습니다.몬테카를로 시뮬레이션에서 "마지막 좋은 응답"과 "신속한 행동 가치 추정"의 개념은 무엇입니까?

출처

2016-09-30 Masoud Masoumi Moghadam

강화 학습을 이용하는 게임에서 몬테카를로 검색의 영역에는 AMAF와 UCT의 두 가지 유형의 역 전파가 있습니다.

UCT 메서드는 선택 단계에서 통과 한 경로를 역 전파합니다. 선택 중에 만나는 노드 만이 자신의 상태에서 정확하게 역 전파됩니다. 그러나 AMAF에는 roll_out 단계에서 충족되는 모든 노드가 저장되고 선택 경로의 노드와 함께 역 전파 단계에서 상태를 고려하지 않고 역 전파됩니다.

UCT는 (상태, 동작) 쌍의 매우 정확한 로컬 값을 제공하지만 너무 수렴하기가 어렵습니다. 반면에 AMAF 휴리스틱은 매우 빠르게 수렴하지만 (상태, 행동) 쌍 값은 너무 일반적이어서 신뢰할 수 없습니다. - *

AMAF

이 RAVE이다 (고속 동작 값 Stimation) 휴리스틱

는 * UCT + (1)

우리는 이런 값에 대한 감소 계수를 사용하여 두 전략의 이점을 가질 수있다 .

Last-Good-Reply는 AMAF 기반이지만 RAVE의 혜택을받을 수 있습니다. 일반적인 생각은 플레이 아웃 단계에서, 우리가 상대방의 움직임에 대한 움직임을 사용할 때, 상대방에 대한 움직임이 성공적이라면, 우리는 이러한 움직임을 저장하고 다음 플레이에서 사용할 수 있습니다.

출처

2017-08-30 22:54:54

몬테카를로 시뮬레이션에서 "마지막 좋은 응답"과 "신속한 행동 가치 추정"의 개념은 무엇입니까?

답변

관련 문제