내가 읽은 알고리즘은 일반적으로 고정 된 동작 수를 가진 단일 에이전트에 적용됩니다. 다양한 액션 수를 고려하면서 결정을 내리는 보강 학습 알고리즘이 있습니까? 예를 들어, 플레이어가 N 명의 병사를 통제하고 각 병사가 조건에 따라 임의의 액션 수를 갖는 컴퓨터 게임에서 RL 알고리즘을 적용하는 방법은 무엇입니까? 병사가 생겨 죽을 때 계속 사용 가능한 조치가 변경되기 때문에 글로벌 의사 결정자 (즉, "일반")에 대해 고정 된 수의 작업을 공식화 할 수 없습니다. 군인의 행동은 즉각적인 환경에 근거하여 조건부이기 때문에 군인 수준에서 일정 수의 행동을 공식화 할 수 없습니다. 군인이 상대방을 보지 못하면 걸을 수있을뿐, 10 명의 상대방을 본다면 10 명의 상대방 중 1 명을 공격하여 10 개의 새로운 행동을 취할 수 있습니다.가변 작업으로 학습 강화 학습
8
A
답변
4
당신이 묘사하는 것은 이상한 것이 아닙니다. 강화 학습은 Markov Decision Process의 가치 함수를 찾는 방법입니다. MDP에서 모든 주에는 고유 한 일련의 작업이 있습니다. 보강 학습 응용 프로그램을 진행하려면 문제에 주, 행동 및 보상이 무엇인지 명확하게 정의해야합니다.
0
일부 조건에 따라 사용 가능하거나 사용 가능하지 않은 각 군인에 대한 여러 작업이있는 경우에도 고정 된 동작 집합에서 선택 항목으로 모델링 할 수 있습니다. 예를 들어 :
- 각 군인
- 에 대한 작업의 전체 집합의 각각에 대해 "이용 가치"를 만들기 주어진 시간
여러 가능한 대상이있는 경우 동일한 원칙이 적용됩니다. 단,이 경우 유틸리티 기능을 모델링하여 추가 매개 변수로 지정하고 평가 기능을 여러 번 (각 대상마다 하나씩) 실행하십시오. "공격 유틸리티"가 가장 높은 대상을 선택합니다.
내가 말했듯이, 병사들도 다양한 행동을 취합니다. 공격 대상을 매개 변수로 지정하면 무엇을 의미합니까? – Cerin
의미 : RL 알고리즘이 추가 입력으로 고려중인 대상 또는 특정 작업에 대한 정보를 가져옵니다. 그런 다음 필요에 따라 여러 대상 및/또는 작업에 적용 할 수 있습니다. 고려중인 각각의 대상 및/또는 동작 정보로 알고리즘을 다시 실행하기 만하면됩니다. – mikera