0
보강 학습에서 상태 - 행동을 저장하기 위해 Q-Table을 사용할 때 어떤 상태가 발생하지 않거나 거의 발생하지 않으며 최대 반복까지 상태 활동 값이 0으로 유지됩니다. Q-Table을 사용하는 대신 신경망으로 Q-Table을 온라인으로 추정하십시오.신경망으로 Q-Table을 온라인으로 추정
어떤 유형의 신경망을 사용하면 이러한 종류의 문제를 더 정확하게 예측할 수 있으며이 솔루션이 도움이됩니까?