나의 이해에서, MCTS에있는 playout 또는 가장 단계의 목표는 결과를 얻고 backpropagation 동안에 뿌리에서 경로에 마디를 수여하거나 처벌하기위한 것이다. (제발 내가 틀렸다면 수정하십시오)몬테카를로 검색 트리의 재생 단계에서 결과를 얻기 위해 휴리스틱을 사용할 수 있습니까?
내 지식은 도메인 지식 휴리스틱을 사용하여 실제로 게임을 실제로 시뮬레이션하지 않고 얻는 것입니다.
내가 찾는 이유는 길 찾기와 비슷한 것을하고 있고 목표는 목표 상태 (노드)에 대한 경로를 찾는 것인데, 이는 결국 게임을 시뮬레이션하는 것이 내 경우에는 매우 어렵다는 것을 의미합니다.