3

신경 이해를 돕기 위해 신경망에 의해 Q 값 (상태 - 행동 - 쌍 - 평가)을위한 룩업 테이블을 대체 할 수 있습니다 이러한 상태 - 행동 쌍을 추정하기위한 것이다. 필자는 작은 라이브러리를 프로그래밍하여 특정 입력 - 출력에 대해 원하는 목표 값을 학습 할 수 있도록 자체 구축 된 신경망을 통해 전파 및 백 프로 퍼 게이트 할 수있었습니다.신경망과 결합하여 Q- 학습 (보람있는 이해)

그래서 나는이 사이트를 인터넷 검색 및 전체 웹 (내게 느껴지는)에서 검색하는 동안 발견했다 : http://www.cs.indiana.edu/~gasser/Salsa/nn.html 신경망과 결합 된 Q- 학습이 곧 설명됩니다.

각 동작에 대해 추가 출력 뉴런이 있으며이 출력 중 하나 인 "단위"의 활성화 값이 예상 Q 값을 알려줍니다. (하나의 질문 : 활성화 값이 뉴런의 "출력"과 다른가요?)

표준 시그 모이 드 함수를 활성화 함수로 사용 했으므로 함수 값 x의 범위는

입니다.
0<x<1 

내 목표 값은 항상 0.0에서 1.0 사이 여야합니다. -> 질문 : 내 이해의 요점이 맞습니까? 아니면 그것에 대해 뭔가를 이해하지 못했습니까?

예 문제 다음이 오는 경우 타깃 보상/새로운 Q 값을 계산하기위한 공식은 다음과 Q (S, A) = Q (S, A) + learningrate의 * (보상 + discountfactor *

대상이 0.0에서 1.0 사이 인 경우 신경망에 적합한 대상을 얻기 위해이 방정식을 어떻게 수행할까요?! (q, s). 어떻게 좋은 보상 값을 계산합니까? 그만한 가치를 지닌 목표를 향해 나아가고 있는가? (더 큰 거리를 목표로하는 것보다 목표에 가까울 때 보상이 더 많습니까?)

내 생각에는 약간의 잘못이 있다고 생각합니다. 나는 그 질문에 대답하도록 도와 줄 수 있기를 바랍니다. 고마워요!

답변

5

신경망을 사용하여 q 값을 저장하면 테이블 조회를 효과적으로 확장 할 수 있습니다. 이는 상태 공간이 연속 일 때 q- 학습을 사용할 수있게합니다.

input layer  ...... 

       |/ \ | \| 
    output layer a1 a2 a3 
       0.1 0.2 0.9 

3 가지 동작이 있다고 가정 해 보겠습니다. 위 그림은 현재 상태와 학습 된 가중치를 사용하는 신경망 출력을 보여줍니다. 따라서 a3은 가장 적합한 조치입니다.

이제 질문은 당신은 :

한 질문 : 활성화 값이 신경 세포 또는 다른 무언가의 "출력"같은 것입니까?

예, 그렇게 생각합니다. 참조 된 링크에서 저자는 다음과 같이 말했습니다.

일부 출력 단위도 지정할 수 있습니다. 그들의 활성화는 네트워크의 응답을 나타냅니다.


그래서 나는 나의 목표 값은 항상 0.0 1.0에서해야한다, 생각 -> 질문 : 나의 이해의 그 시점이 맞습니까?아니면 그것에 대해 뭔가를 이해하지 못했습니까?

정품 인증 기능으로 sigmoid을 선택한 경우 출력이 0.0에서 1.0 사이인지 확인하십시오. 활성화 기능에는 다양한 선택 사항이 있습니다 (예 : here). Sigmoid은 가장 인기있는 선택 중 하나입니다. 0.0에서 1.0 사이의 출력 값은 문제가되지 않는다고 생각합니다. 현재로서는 두 가지 가능한 작업, Q(s,a1) = 0.1, Q(s,a2) = 0.9 만있는 경우 작업 a2이 q 값에 따라 a1보다 훨씬 우수하다는 것을 알고 있습니다. 타겟 1.0 0.0되어야 하는지를


그래서 방법 I은, 뉴럴 네트워크에 대한 적절한 목표를 얻기 위해이 식을 수행 할! 어떻게 좋은 보상 값을 계산합니까?

나는 이것에 대한 확실하지 않다, 그러나 당신은 적당한을 찾기 위해 몇 가지 실험을 할

q(s,a) = min(max(0.0, q(s,a) + learningrate * (reward + discountfactor * q'(s,a) - q(s,a))), 1.0) 

시도, 즉 0.0에서 1.0 사이에 새로운 목표 Q 값을 고정하기 위해 시도 할 수 있습니다 보상 가치.


은 그것에서 멀리가는 것보다, 그것이 더 가치가 목표를 향해 이동되어 있습니까? (더 + 더 큰 거리를 -reward보다 목표에 가까워 보상 목표로?) 당신이 고전 업데이트 방정식을 사용하는 경우는, 목표에 가까운 때

는 일반적으로 더 많은 보상을 제공해야합니다 있도록 새로운 Q- 가치가 증가합니다.

+0

와우 그 상세한 답변에 감사드립니다! 방금 다른 질문이 생겼습니다. 새로운 목표를 달성하는 것이 매우 유용한가, 아니면 내 에이전트의 "잘못된"행동의 기회가 있습니까? – TheWhiteLlama

+0

잘 모르겠습니다. 않는 한 당신은 여기에 몇 가지 결과를 게시 할 수 있습니다. 당신은 대리인에 대한 엡실론 탐사를하고 있습니까? 여기에 게시물을 확인하십시오. http://stackoverflow.com/questions/13148934/unbounded-increase-in-q-value-consequence-of-recurrent-reward-after-repeating-t/13153633#13153633 – greeness

+0

Jup, 내가하고 싶은 첫 번째 일은 빨간 화살 (음식 또는 무언가)을 찾아 내기 위하여 임무가 있어야하는 "화살". 하지만이 쉬운 것조차도 쉬운 일이 아닙니다. ( – TheWhiteLlama