3

&이 강화 학습 적용 배울 수있는 내 장난감 프로젝트는 다음과 같습니다
는 - 에이전트는 "안전"& "빨리"는 목표 상태에 도달하려고 ....
- 그러나 발사체가와 로켓 등이 있습니다.
- 에이전트가 일부 소음 가진 - 로켓 위치를 확인할 수 있습니다 - 그들은 "근처에"경우에만
- 에이전트는 ..이 로켓에 충돌 피하기 위해 배워야한다
- 에이전트와 -rechargable있다 연속 작업-
에이전트 운동에 소모되는 시간 - 연료 : 앞으로 가속화은 - 나는 C 있음에 맞게 몇 가지 힌트와 RL 알고리즘의 이름을 필요로 각도
강화 학습 장난감 프로젝트


와 선반 ase ..
- 나는 그것이 POMDP라고 생각하지만 MDP로 모델링하고 잡음을 무시할 수 있습니까?
- POMDP 인 경우 확률을 평가하기위한 권장 방법은 무엇입니까?
-이 경우 사용하는 것이 더 좋습니다 : 가치 함수 또는 정책 반복?
- 명시 적 방정식을 사용하는 대신 NN을 사용하여 환경 역학을 모델링 할 수 있습니까?
- 그렇다면 추천 할 NN의 특정 유형/모델이 있습니까?
- 조치는 이산화되어야한다고 생각합니다.

나는 그것이 시간과 같은 주제를 배울 수있는 노력을 알고,하지만 난 ...
덕분에 모든 응답 할 수없는 경우 ..
당신은 몇 가지 질문에 대답 할 수 열망입니다

+2

여러 개의 특정 질문으로 더 잘 나눌 수 있습니다. – danben

답변

7

강화 학습이있는 첫 번째 실험 인 경우 이보다 훨씬 간단한 것으로 시작하는 것이 좋습니다. 간단한 일을 시작한 다음 이처럼 복잡한 프로젝트로 이동할 수 있습니다. 나는 POMDP에 문제가 있으며 나는 지금 꽤 오래 RL에서 일하고있다. 이제 나는 할 수있는 질문에 답하려고 노력할 것이다.

나는 그것이 POMDP라고 생각하지만 MDP로 모델링 할 수 있으며 잡음 만 무시할 수 있습니까?

예. POMDP는 Partially Observable Markov Decision Process의 약자입니다. 부분적으로 관찰 가능한 부분은 에이전트가 상태를 완벽하게 알 수 없지만 관측을 기반으로 에이전트를 추정 할 수 있다는 것을 의미합니다. 당신의 경우에, 당신은 약간의 소음을 가질 수있는 관찰로서 로켓의 위치를 ​​가질 것이고, 에이전트의 이전 지식에 기초하여 미사일의 위치에 대한 믿음을 업데이트 할 수 있습니다. 그것은 많은 복잡성을 추가합니다. 미사일 위치를 절대적으로 사용하는 것이 훨씬 쉽고 불확실성을 다루지 않아도됩니다. 그렇다면 POMDP를 사용할 필요가 없습니다.

POMDP의 경우 확률을 평가하기위한 권장 방법은 무엇입니까?

귀하의 질문에 이해가 가지 않습니다. 베이 즈 규칙의 어떤 형태를 사용할 것입니다. 즉, 당신은 당신의 믿음 상태 (임의의 주어진 상태에있을 확률)의 일종의 분포를 가질 것입니다. 그것은 당신의 이전 분포 일 것이고 이것을 관찰하고 사후 분포를 취하는 관찰에 기초 할 것입니다. 더 많은 정보가 필요하면 베이 즈 규칙을 살펴보십시오.

이 경우 사용하는 것이 더 좋습니다 : 값 기능 또는 정책 반복?

내 경험 대부분은 가치 기능을 사용하여 비교적 쉽게 사용하고 이해할 수 있습니다. 그러나 나는 당신에게 말할 다른 것을 모른다. 나는 이것이 아마도 당신의 선택이라고 생각합니다. 나는 더 나은 선택을하기 위해 프로젝트 작업에 시간을 투자해야 할 것입니다.

NN을 사용하여 명시적인 방정식 대신 환경 역학을 모델링 할 수 있습니까? 그렇다면 추천 할 특정 유형/모델의 NN이 있습니까?

모델 환경에 NN을 사용하는 것에 관해서는 아무것도 모릅니다. 죄송합니다.

조치는 반드시 discretized해야한다고 생각합니까?

예. 이산 행동 목록과 별개의 상태 목록이 있어야합니다. 일반적으로 알고리즘은 특정 주에 대해 가장 적합한 조치를 선택하며, 가장 단순한 알고리즘 (QLearning과 같은 것)에 대해 모든 주어진 상태 - 조치 쌍의 값을 추적합니다.

이 모든 것을 배우고 있다면 Sutton and Barto 텍스트를 사용하는 것이 좋습니다. 또한 RL 알고리즘의 간단한 예제를보고 싶다면 매우 간단한 기본 클래스와 github (Python으로 작성)에서 사용하는 예제가 있습니다. abstract_rl 클래스는 RL 작업을 위해 확장 될 예정이지만 매우 간단합니다. simple_rl.py는 실행할 수있는 base_rl을 사용하는 간단한 작업의 예제입니다 (한 위치가 목표이고 알고리즘으로 QLearning을 사용하는 간단한 그리드입니다). 시간이 지남에 따라 보상을 보여주는 그래프를 인쇄합니다. 둘 다 매우 복잡하지는 않지만, 단지 시작하려는 경우 몇 가지 아이디어를 제공하는 데 도움이 될 수 있습니다. 나는 이것이 도움이되기를 바랍니다. 더 구체적인 질문이 있으시면 알려주십시오.

+0

언급 된 책의 온라인 버전이 있습니다. //webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html – Matt

0

NN을 사용하여 명시적인 방정식 대신 환경 역학을 모델링 할 수 있습니까? 그렇다면 추천 할 특정 유형/모델의 NN이 있습니까?

예, 신경망은 예측 작업을 해결할 수있는 것으로 알려져 있습니다. 그러나 그것은 당신이 당신의 업무를 어떻게 정의 하느냐에 달려 있습니다. 당신의 알고리즘이 역 동성을 알고있을 때만 환경을 제어 할 수 있도록 배우고 싶습니까? 아니면 알려지지 않은 환경에서 작업을 해결하는 방법을 배우고 싶습니까? 후자의 경우는 RL에서 더 일반적이다.

조치는 반드시 discretized해야한다고 생각합니까?

아니요, 필수는 아닙니다. 예를 들어, Actor-Critic 솔루션은 지속적인 동작을 위해 작동합니다. 또한 Gaussian Process를 기반으로 한 RL에 대해서도 들었습니다. 두 가지 솔루션 모두에 대한 자료는 Google을 통해 쉽게 찾을 수 있습니다.

+0

작업을 이산화하지 않아도되지만 연속적인 작업 공간으로 인해 만약 당신이 할 수 있으면 수학은 훨씬 더 비열합니다. – danelliottster