1
Actor Mimic은 작업 마스킹 절차를 구현하는 방법에 대해 설명합니다. 특정 게임을하는 동안 나는 액션 마스킹은 어떻게 구현하나요?
을 인용, 우리는 그 게임에 유효하지 않습니다 AMN 액션 출력을 마스크와 유효한 행동의 부분 집합을 통해이 softmax을
누구 아이디어가 있습니까 어떻게 Tensorflow에서이 액션 마스킹을 구현할 수 있을까요? 구체적으로, 어떻게 행동의 특정 부분 집합에 대해서만 softmax를 취할 것인가?