2017-10-17 14 views
0

아무도 Markov의 State Space Graph 설계에 도움을 줄 수 있습니까? Berkeley CS188의 자동차 경주 예제 결정 프로세스.자동차 경주 용 Markov 프로세스의 상태 공간 그래프를 나타냅니다.

자동차 경주 예를 enter image description here

예를 들어 내가 100 개 작업을 할 수 있으며, 내 보상을 극대화하기 위해 최선의 정책을 얻기 위해 값의 반복을 실행합니다.

내가 3 개의 상태 (차갑고 따뜻하며 과열)가있을 때 "끝"상태를 추가하고 MDP를 완료하는 방법을 모른다.

저는 100 개의 쿨 상태와 100 개의 웜 상태에 대해 생각하고 있습니다. 예를 들어 Cool1에서 Cool2, Warm2 또는 Overheated 등으로 갈 수 있습니다. 이 예제에서 나의 상태 값은 0에 가까운 상태 값이 100으로 닫힌 상태보다 높습니다.

MDP에 뭔가가 누락 되었습니까?

+0

FSA의 [과열] 상태가 터미널 상태 (The End)에 대해 알 수 있습니다. – user3666197

답변

0

가능한 상태는 3 가지 여야합니다. "쿨"및 "웜"상태는 반복적이며 상태를 벗어날 확률이 0이므로 흡수 상태입니다.

"쿨"과 "웜"에 대해 두 가지 동작을 느리게 또는 빠르게 수행 할 수 있습니다 "상태로 표시됩니다. 확률 전이 행렬과 단계 보상은 차트에서 쉽게 확립 될 수 있습니다. 예를 들어, P (냉기에서 웜으로 빠르게 진행) = 0.5 및 R (냉기에서 웜으로 빠르게 진행) = 2

목적에 따라 유한 한 수평선 또는 무한한 수평선으로 해결할 수 있습니다 MDP.