2014-04-19 1 views
2

Q- 러닝으로이 문제를 해결해야합니다. 사실, Q- 학습 기반 정책을 평가해야합니다.은 가능한 최종 상태가없는 Q- 학습입니까?

나는 관광 매니저입니다.

나는 n 개의 호텔을 보유하고 있으며 각기 다른 수의 인원을 포함 할 수 있습니다.

내가 호텔에 넣은 사람마다 나는 내가 선택한 방을 기반으로 보상을 얻습니다.

내가 원한다면 나는 그 사람을 살해 할 수도 있기 때문에 호텔에 가지 않는다. 그러나 그것은 나에게 다른 보상을 준다. (OK, 그건 농담이지만 ​​... 자기 전환을 할 수 있다고 말하는 것입니다. 그래서 내 방의 사람들의 수는 그 행동 후에도 변하지 않습니다).

  • 내 상태는 각 호텔에있는 사람 수를 포함하는 벡터입니다.

  • 내 행동은 내가
    이 새로운 사람을 배치해야합니까 곳에 저를 알려줍니다 0과의 벡터이다.

  • 나의 보상 매트릭스는 각 전환 (각자 전환 1조차) 사이에서
    사이의 보상에 의해 형성됩니다. 지금

, 나는 내가 Q 행렬을 구축 할 수있는 방법을 사람들의 수를 무제한으로 (즉, 내가 그것을 채울 수 있지만 내가 그들을 죽이는에 갈 수) 얻을 수 있기 때문에? Q 매트릭스가 없으면 정책을 얻을 수 없어 평가할 수 없습니다 ...

무엇이 잘못 볼까요? 마지막으로 무작위로 선택해야합니까? 나는 그 요점을 놓쳤는가?

+0

따라서 Q 행렬은 [num_states x num_actions] 크기의 행렬이 될 수 있습니다. 너는 무엇을 배우려고하니? – NKN

+0

@NKN 제 정책은 시간이 지남에 따라 수익을 극대화하고자합니다. Q는 Q 매트릭스가 있고 Q-learning을 실행하면 Q3optical Q_optimal을 얻을 수 있다고 대답하는 방법을 말하면서 – user3149593

+1

을 작성합니다. 알고리즘이 수렴되면 정책은 argmax_ {action} (Q *)입니다. – NKN

답변

1

RL 문제는 최종 상태 자체가 필요하지 않습니다. 그들이 필요한 것은 보상 상태입니다. 그래서, 당신이 어떤 보상을받는 한, 당신은 잘 할 수 있다고 생각합니다.

나는 이와 같은 RL 문제가있는 XP가 많지 않습니다. 의견 제시자가 말했듯이 이것은 정말로 거대한 국가 공간처럼 들립니다. 이산 접근 방식을 사용하는 데 익숙하다면, 문제의 범위 (사람과 호텔/객실의 한정 수)를 제한하고 작은 상태 행렬에서 Q- 학습을 느슨하게함으로써 좋은 시작을 얻고 문제에 대해 배울 수 있습니다 .

또는 신경망과 같은 무한 상태 공간을 처리 할 수있는 방법으로 바로 뛰어들 수 있습니다.

작은 문제를 먼저 시도해보십시오. 내 경험에 비추어 볼 때 더 큰 문제를 해결할 준비가 잘되어있을 것입니다.

+0

두 사람을위한 방이 각각 3 개있는 호텔을 가정 해 보겠습니다. 나의 공간 상태는 유한하므로 내 행동 공간도 있습니다. 최종 상태 인 경우 easly Q를 만들 수 있습니다. 마지막으로 국가를 선택하지 않으면 당신이 말한 것처럼 알고리즘이 좋지 않기 때문에 "모든 호텔이 가득 찼다"고 최종적으로 받아 들여야합니다. – user3149593

+1

아마도 나는 이해하지 못합니다. "최종 상태"는 무엇을 의미합니까? – danelliottster

+0

여기에 '목표 상태'가 있습니다. http://mnemstudio.org/path-finding-q-learning.htm 저는 미국에 있습니다. 루프를 종료 할 수없는 목표 상태로 표시된 항목이 없으면 내 Q 행렬을 작성하는 절차가 필요합니다. – user3149593

1

아마도 "가능한가?"라고 대답 할 수는 없지만 ... r- 학습에 대해 읽어 보면이 특정 문제를 해결하기 위해 Q 또는 V 기능뿐 아니라 ρ - 예상되는 보상. Q와 ρ의 공동 학습은 더 나은 전략을 낳습니다.

+1

이것은 외형보다는 답글처럼 보입니다. –

+0

네,하지만 질문을 논평 할 수 없습니다. – Spoilt333

+0

다음과 같이 말할 수있는 학사 학위 논문 : 예, 최종 상태가없는 Q- 학습이 가능합니다. 이 예제에서는 트레이닝 세트의 마지막 사람을 분석해야하는 경우에도 마지막으로 터미널 조건을 사용합니다. 그 후에 정책 Q *를 만들 수 있고, 테스트 세트에서도 향상 시키거나 정적 정책으로 사용하면 좋을지 결정할 수 있습니다. @danelliottster는 그것을 꽤 잘 설명했다. – user3149593

1

이 질문은 오래되었지만 답을 좋게 생각합니다.

문제 중 하나는 반드시 에피소드 및 해당 터미널 상태의 개념이 아니라는 것입니다. 오히려 이것은 계속되는 문제입니다. 당신의 목표는 보상을 미래까지 영원히 극대화하는 것입니다. 이 경우, 감마 값은 감마 값보다 작아서 각 단계에서 미래를 얼마나 멀리 보는지 지정합니다.수익은 미래의 보상의 누적 할인 된 합계로 지정됩니다. 일회성 문제의 경우, 1의 할인을 사용하는 것이 일반적이며, 그 회수는 에피소드가 끝날 때까지 미래의 보상의 누적 합계입니다.

최적 정책을 따르기위한 기대 수익 인 최적 Q를 알아 보려면 정책 외 Q- 학습 업데이트를 수행 할 방법이 있어야합니다. Q- 학습 업데이트를 얻기 위해 샘플 전환을 사용하는 경우 환경에서 해당 샘플을 가져 오는 동작을 취하는 동작 정책을 지정해야합니다. Q-Learning에 대해 더 많이 이해하려면 표준 입문 RL 교과서 인 "강화 학습 : 소개", Sutton 및 Barto를 읽어야합니다.

0

무한 상태 공간에서 위의 응답을 반복하려면 확실히 Q 함수에 대한 일종의 일반화를 고려해야합니다. 무한 공간에서 Q 함수 응답에서 더 많은 가치를 얻을 수 있습니다. 단순 선형 회귀인지 신경망인지에 관계없이 여러 다른 함수 근사법을 실험 해 볼 수 있습니다.

Martha가 말했듯이 무한한 수평선을 감안할 때 감마가 1보다 작아야합니다. 그렇지 않으면, 당신은 최적의 정책을 측정 할 수 없다는 것을 의미하는 N 개의 무한대 정책의 적합성을 결정하려고 할 것입니다.

내가 나중에 추가하고자하는 주요 사항은 보상을 형성하는 의미입니다. 마지막으로 큰 보상이없는 무한한 문제에서 에이전트가 "갇혀"도착하는 차선의 보상 루프가 발생할 수 있습니다. 특정 국가가 유한 한 수평선에서 이웃 국가보다 높은 보상을받을 수 있기 때문입니다 (감마에 의해 정의 된). 이것을 설명하기 위해 같은 상태의 착륙을 여러 차례 시도했을 때 에이전트에 불이익을주지 않도록해야합니다. 분명히 탐사도 매우 중요하며, 문제가 무한하다면 탐사가 어느 정도 필요합니다.