Q- 러닝으로이 문제를 해결해야합니다. 사실, Q- 학습 기반 정책을 평가해야합니다.은 가능한 최종 상태가없는 Q- 학습입니까?
나는 관광 매니저입니다.
나는 n 개의 호텔을 보유하고 있으며 각기 다른 수의 인원을 포함 할 수 있습니다.
내가 호텔에 넣은 사람마다 나는 내가 선택한 방을 기반으로 보상을 얻습니다.
내가 원한다면 나는 그 사람을 살해 할 수도 있기 때문에 호텔에 가지 않는다. 그러나 그것은 나에게 다른 보상을 준다. (OK, 그건 농담이지만 ... 자기 전환을 할 수 있다고 말하는 것입니다. 그래서 내 방의 사람들의 수는 그 행동 후에도 변하지 않습니다).
내 상태는 각 호텔에있는 사람 수를 포함하는 벡터입니다.
내 행동은 내가
이 새로운 사람을 배치해야합니까 곳에 저를 알려줍니다 0과의 벡터이다.- 나의 보상 매트릭스는 각 전환 (각자 전환 1조차) 사이에서
사이의 보상에 의해 형성됩니다. 지금
, 나는 내가 Q 행렬을 구축 할 수있는 방법을 사람들의 수를 무제한으로 (즉, 내가 그것을 채울 수 있지만 내가 그들을 죽이는에 갈 수) 얻을 수 있기 때문에? Q 매트릭스가 없으면 정책을 얻을 수 없어 평가할 수 없습니다 ...
무엇이 잘못 볼까요? 마지막으로 무작위로 선택해야합니까? 나는 그 요점을 놓쳤는가?
따라서 Q 행렬은 [num_states x num_actions] 크기의 행렬이 될 수 있습니다. 너는 무엇을 배우려고하니? – NKN
@NKN 제 정책은 시간이 지남에 따라 수익을 극대화하고자합니다. Q는 Q 매트릭스가 있고 Q-learning을 실행하면 Q3optical Q_optimal을 얻을 수 있다고 대답하는 방법을 말하면서 – user3149593
을 작성합니다. 알고리즘이 수렴되면 정책은 argmax_ {action} (Q *)입니다. – NKN