학습자가 훈련 단계에있을 수 있습니다.이 단계에서는 신기원을위한 Q-table을 업데이트합니다.학습 강화 : Q- 학습을 마친 후 하이퍼 매개 변수 (?)를 무시해야합니까?
이 단계에서 Q- 테이블은 감마 (할인율), 학습률 (알파)로 업데이트되며 임의의 동작 속도로 동작이 선택됩니다.
보상이 안정되고있는 몇 몇 신기원이 끝나면이 "훈련이 완료되었습니다"라고 말하게하십시오. 그런 다음이 매개 변수 (감마, 학습 속도 등)를 무시해야합니까?
는 내 말은, 교육 단계에서이 같은 Q-테이블에서 작업 있어요 :
if rand_float < rar:
action = rand.randint(0, num_actions - 1)
else:
action = np.argmax(Q[s_prime_as_index])
을하지만 훈련 단계 이후, 난에서 작업을 얻을 수있는 의미, rar
을 제거해야합니까 이 Q- 테이블?
action = np.argmax(self.Q[s_prime])
사용하는 언어 및 라이브러리는 무엇입니까? 태그를 추가하십시오. – user31264
도서관을 사용하지 않습니다 ... 제가 직접 전체 시스템을 만들었습니다. – user3595632
stats.stackexchange.com 또는 ai.stackexchange.com – user31264