2011-03-07 8 views
8

내가 읽은 알고리즘은 일반적으로 고정 된 동작 수를 가진 단일 에이전트에 적용됩니다. 다양한 액션 수를 고려하면서 결정을 내리는 보강 학습 알고리즘이 있습니까? 예를 들어, 플레이어가 N 명의 병사를 통제하고 각 병사가 조건에 따라 임의의 액션 수를 갖는 컴퓨터 게임에서 RL 알고리즘을 적용하는 방법은 무엇입니까? 병사가 생겨 죽을 때 계속 사용 가능한 조치가 변경되기 때문에 글로벌 의사 결정자 (즉, "일반")에 대해 고정 된 수의 작업을 공식화 할 수 없습니다. 군인의 행동은 즉각적인 환경에 근거하여 조건부이기 때문에 군인 수준에서 일정 수의 행동을 공식화 할 수 없습니다. 군인이 상대방을 보지 못하면 걸을 수있을뿐, 10 명의 상대방을 본다면 10 명의 상대방 중 1 명을 공격하여 10 개의 새로운 행동을 취할 수 있습니다.가변 작업으로 학습 강화 학습

답변

4

당신이 묘사하는 것은 이상한 것이 아닙니다. 강화 학습은 Markov Decision Process의 가치 함수를 찾는 방법입니다. MDP에서 모든 주에는 고유 한 일련의 작업이 있습니다. 보강 학습 응용 프로그램을 진행하려면 문제에 주, 행동 및 보상이 무엇인지 명확하게 정의해야합니다.

0

일부 조건에 따라 사용 가능하거나 사용 가능하지 않은 각 군인에 대한 여러 작업이있는 경우에도 고정 된 동작 집합에서 선택 항목으로 모델링 할 수 있습니다. 예를 들어 :

  • 각 군인
  • 에 대한 작업의 전체 집합의 각각에 대해 "이용 가치"를 만들기 주어진 시간
에서 사용할 수없는 이러한 작업을 무시하고, 가장 가치있는 작업을 선택

여러 가능한 대상이있는 경우 동일한 원칙이 적용됩니다. 단,이 경우 유틸리티 기능을 모델링하여 추가 매개 변수로 지정하고 평가 기능을 여러 번 (각 대상마다 하나씩) 실행하십시오. "공격 유틸리티"가 가장 높은 대상을 선택합니다.

+0

내가 말했듯이, 병사들도 다양한 행동을 취합니다. 공격 대상을 매개 변수로 지정하면 무엇을 의미합니까? – Cerin

+0

의미 : RL 알고리즘이 추가 입력으로 고려중인 대상 또는 특정 작업에 대한 정보를 가져옵니다. 그런 다음 필요에 따라 여러 대상 및/또는 작업에 적용 할 수 있습니다. 고려중인 각각의 대상 및/또는 동작 정보로 알고리즘을 다시 실행하기 만하면됩니다. – mikera