1

나의 이해에서, MCTS에있는 playout 또는 가장 단계의 목표는 결과를 얻고 backpropagation 동안에 뿌리에서 경로에 마디를 수여하거나 처벌하기위한 것이다. (제발 내가 틀렸다면 수정하십시오)몬테카를로 검색 트리의 재생 단계에서 결과를 얻기 위해 휴리스틱을 사용할 수 있습니까?

내 지식은 도메인 지식 휴리스틱을 사용하여 실제로 게임을 실제로 시뮬레이션하지 않고 얻는 것입니다.

내가 찾는 이유는 길 찾기와 비슷한 것을하고 있고 목표는 목표 상태 (노드)에 대한 경로를 찾는 것인데, 이는 결국 게임을 시뮬레이션하는 것이 내 경우에는 매우 어렵다는 것을 의미합니다.

답변

1

네, 확실히 할 수 있습니다. 나는 개인적으로 단말기 도메인에 도달 할 때까지 적당한 양의 시뮬레이션을 실행하는 것이 불가능한 일부 게임 도메인에서이 작업을 수행했습니다.

언제나 시뮬레이션을 일찌감치 종료하고 경험적 평가 기능을 사용하여 평가하면 UCT (가장 일반적인 MCTS 구현)가 무한한 양의 처리 시간에 대해 최적의 동작을 찾음을 보장 할 수 없지만 실제로 어쨌든 무한한 처리 시간. 끝날 때까지 충분한 시뮬레이션을 실행하는 것이 타당한 도메인에서는 매우 유익한 휴리스틱 기능이 아니라면 더 많은 시뮬레이션을 실행할 수 있습니다.