2017-01-04 5 views
0

Q-learning 알고리즘에서 동작 선택은 현재 상태와 Q-matrix의 값에 따라 달라집니다. 이 Q 값이 탐색 단계에서만 업데이트되는지 아니면 이용 단계에서도 변경되는지 알고 싶습니다.Q-learning에서 탐색 및 활용

답변

1

당신은 Sutton & Barto book에서 예를 들어 Q 학습 알고리즘 코드를 읽으면 : 그것은 Q-값이 항상 업데이트되는 꽤 명확한 것 같다 enter image description here

, 선택된 작업을 탐색인지 독립적 경우입니다. 줄 것을

통지 "Q 유래의 S 사용 정책에서 를 선택 (예를 들어, 엡실론 - 욕심)"동작이 몇 번이 탐색 될 것을 의미한다.

+0

이 응답을 주셔서 감사합니다 – user22

+0

안녕하세요. 응답이 유용했다면 "Accepted response"로 표시하십시오 (투표 화살표 아래 왼쪽의 체크 표시를 클릭하십시오). 자세한 정보는 http://meta.stackexchange.com/questions/23138/에서 확인하십시오. 스택에 오버플로를 허용하는 방법 :-) –