강화 학습이있는 첫 번째 실험 인 경우 이보다 훨씬 간단한 것으로 시작하는 것이 좋습니다. 간단한 일을 시작한 다음 이처럼 복잡한 프로젝트로 이동할 수 있습니다. 나는 POMDP에 문제가 있으며 나는 지금 꽤 오래 RL에서 일하고있다. 이제 나는 할 수있는 질문에 답하려고 노력할 것이다.
나는 그것이 POMDP라고 생각하지만 MDP로 모델링 할 수 있으며 잡음 만 무시할 수 있습니까?
예. POMDP는 Partially Observable Markov Decision Process의 약자입니다. 부분적으로 관찰 가능한 부분은 에이전트가 상태를 완벽하게 알 수 없지만 관측을 기반으로 에이전트를 추정 할 수 있다는 것을 의미합니다. 당신의 경우에, 당신은 약간의 소음을 가질 수있는 관찰로서 로켓의 위치를 가질 것이고, 에이전트의 이전 지식에 기초하여 미사일의 위치에 대한 믿음을 업데이트 할 수 있습니다. 그것은 많은 복잡성을 추가합니다. 미사일 위치를 절대적으로 사용하는 것이 훨씬 쉽고 불확실성을 다루지 않아도됩니다. 그렇다면 POMDP를 사용할 필요가 없습니다.
POMDP의 경우 확률을 평가하기위한 권장 방법은 무엇입니까?
귀하의 질문에 이해가 가지 않습니다. 베이 즈 규칙의 어떤 형태를 사용할 것입니다. 즉, 당신은 당신의 믿음 상태 (임의의 주어진 상태에있을 확률)의 일종의 분포를 가질 것입니다. 그것은 당신의 이전 분포 일 것이고 이것을 관찰하고 사후 분포를 취하는 관찰에 기초 할 것입니다. 더 많은 정보가 필요하면 베이 즈 규칙을 살펴보십시오.
이 경우 사용하는 것이 더 좋습니다 : 값 기능 또는 정책 반복?
내 경험 대부분은 가치 기능을 사용하여 비교적 쉽게 사용하고 이해할 수 있습니다. 그러나 나는 당신에게 말할 다른 것을 모른다. 나는 이것이 아마도 당신의 선택이라고 생각합니다. 나는 더 나은 선택을하기 위해 프로젝트 작업에 시간을 투자해야 할 것입니다.
NN을 사용하여 명시적인 방정식 대신 환경 역학을 모델링 할 수 있습니까? 그렇다면 추천 할 특정 유형/모델의 NN이 있습니까?
모델 환경에 NN을 사용하는 것에 관해서는 아무것도 모릅니다. 죄송합니다.
조치는 반드시 discretized해야한다고 생각합니까?
예. 이산 행동 목록과 별개의 상태 목록이 있어야합니다. 일반적으로 알고리즘은 특정 주에 대해 가장 적합한 조치를 선택하며, 가장 단순한 알고리즘 (QLearning과 같은 것)에 대해 모든 주어진 상태 - 조치 쌍의 값을 추적합니다.
이 모든 것을 배우고 있다면 Sutton and Barto 텍스트를 사용하는 것이 좋습니다. 또한 RL 알고리즘의 간단한 예제를보고 싶다면 매우 간단한 기본 클래스와 github (Python으로 작성)에서 사용하는 예제가 있습니다. abstract_rl 클래스는 RL 작업을 위해 확장 될 예정이지만 매우 간단합니다. simple_rl.py는 실행할 수있는 base_rl을 사용하는 간단한 작업의 예제입니다 (한 위치가 목표이고 알고리즘으로 QLearning을 사용하는 간단한 그리드입니다). 시간이 지남에 따라 보상을 보여주는 그래프를 인쇄합니다. 둘 다 매우 복잡하지는 않지만, 단지 시작하려는 경우 몇 가지 아이디어를 제공하는 데 도움이 될 수 있습니다. 나는 이것이 도움이되기를 바랍니다. 더 구체적인 질문이 있으시면 알려주십시오.
여러 개의 특정 질문으로 더 잘 나눌 수 있습니다. – danben