복잡한 보 조 조건에 도달 할 때까지 주어진 점 집합에서 원점에 가장 가까운 점을 반복적으로 선택하기 위해 보강 학습을 사용하려고합니다. (이것은 내 주요 문제를 단순화 한 것입니다.)보강 학습으로 원점에 가장 가까운 점 선택
가능한 포인트가 포함 된 2D 배열이 보강 학습 알고리즘에 전달되어 가장 이상적이라고 생각되는 포인트를 선택합니다. 이 경우
A [1, 10]
B [100, 0]
C [30, 30]
D [5, 7]
E [20, 50]
,
D
진정한 최고의 선택이 될 것입니다. 내가 알고리즘을 훈련 할 때마다 (이 알고리즘은해야 범위
4
-
0
.에서,
3
이상적으로 출력) 그러나
, "개념"이 무엇인지 배울 것 대신 단지의 선택은, 말하자면, C
입니다 보통이 최선이므로 선택해야합니다.
import numpy as np
import rl.core as krl
class FindOriginEnv(krl.Env):
def observe(self):
return np.array([
[np.random.randint(100), np.random.randint(100)] for _ in range(5)
])
def step(self, action):
observation = self.observe()
done = np.random.rand() < 0.01 # eventually
reward = 1 if done else 0
return observation, reward, done, {}
# ...
달성하려는 목표에 대해 실제로 알 수 있도록 알고리즘을 수정해야합니까?
- 관측 모양?
- 보상 기능?
- 조치 방법?
Keras 코드가 좋지만 필수는 아닙니다. 순전히 알고리즘적인 설명도 매우 유용 할 것입니다.