신경 이해를 돕기 위해 신경망에 의해 Q 값 (상태 - 행동 - 쌍 - 평가)을위한 룩업 테이블을 대체 할 수 있습니다 이러한 상태 - 행동 쌍을 추정하기위한 것이다. 필자는 작은 라이브러리를 프로그래밍하여 특정 입력 - 출력에 대해 원하는 목표 값을 학습 할 수 있도록 자체 구축 된 신경망을 통해 전파 및 백 프로 퍼 게이트 할 수있었습니다.신경망과 결합하여 Q- 학습 (보람있는 이해)
그래서 나는이 사이트를 인터넷 검색 및 전체 웹 (내게 느껴지는)에서 검색하는 동안 발견했다 : http://www.cs.indiana.edu/~gasser/Salsa/nn.html 신경망과 결합 된 Q- 학습이 곧 설명됩니다.
각 동작에 대해 추가 출력 뉴런이 있으며이 출력 중 하나 인 "단위"의 활성화 값이 예상 Q 값을 알려줍니다. (하나의 질문 : 활성화 값이 뉴런의 "출력"과 다른가요?)
표준 시그 모이 드 함수를 활성화 함수로 사용 했으므로 함수 값 x의 범위는
입니다.0<x<1
내 목표 값은 항상 0.0에서 1.0 사이 여야합니다. -> 질문 : 내 이해의 요점이 맞습니까? 아니면 그것에 대해 뭔가를 이해하지 못했습니까?
예 문제 다음이 오는 경우 타깃 보상/새로운 Q 값을 계산하기위한 공식은 다음과 Q (S, A) = Q (S, A) + learningrate의 * (보상 + discountfactor *
대상이 0.0에서 1.0 사이 인 경우 신경망에 적합한 대상을 얻기 위해이 방정식을 어떻게 수행할까요?! (q, s). 어떻게 좋은 보상 값을 계산합니까? 그만한 가치를 지닌 목표를 향해 나아가고 있는가? (더 큰 거리를 목표로하는 것보다 목표에 가까울 때 보상이 더 많습니까?)
내 생각에는 약간의 잘못이 있다고 생각합니다. 나는 그 질문에 대답하도록 도와 줄 수 있기를 바랍니다. 고마워요!
와우 그 상세한 답변에 감사드립니다! 방금 다른 질문이 생겼습니다. 새로운 목표를 달성하는 것이 매우 유용한가, 아니면 내 에이전트의 "잘못된"행동의 기회가 있습니까? – TheWhiteLlama
잘 모르겠습니다. 않는 한 당신은 여기에 몇 가지 결과를 게시 할 수 있습니다. 당신은 대리인에 대한 엡실론 탐사를하고 있습니까? 여기에 게시물을 확인하십시오. http://stackoverflow.com/questions/13148934/unbounded-increase-in-q-value-consequence-of-recurrent-reward-after-repeating-t/13153633#13153633 – greeness
Jup, 내가하고 싶은 첫 번째 일은 빨간 화살 (음식 또는 무언가)을 찾아 내기 위하여 임무가 있어야하는 "화살". 하지만이 쉬운 것조차도 쉬운 일이 아닙니다. ( – TheWhiteLlama