내 마지막 question을 기반으로 두 개의 로봇 팔이 서로 탁구를하고있는 3D 게임을 만들었습니다. 로봇은 6 자유도를 가지고 있습니다.
상태 의해 구성되어탁구 로봇에 대한 신경망 제안
- X, 로봇의 공
- 6 각의 Y 및 Z-위치 그들이 걸릴 수 있도록
모든 값은, 정규화 [-1,1] 사이의 값입니다. 연속 된 4 개의 프레임을 사용하면 총 37 개의 매개 변수를 얻을 수 있습니다.
보상 선수가 볼을 플레이어가 경기
을 잃을 때 플레이어가 경기
- 0.3 출력
6 개의 로봇 관절은 모두 어떤 속도로 모든 관절은 긍정적 인 방향으로 움직이거나, 머물러 있거나 부정적인 방향으로 움직일 수있는 가능성을 가지고 있습니다. 이렇게하면 3^6 = 729 개의 결과가됩니다.이러한 설정을 사용하면 신경망은 로봇의 역 기구학을 배우고 탁구를해야합니다. 내 문제는 내 네트워크가 수렴하지만 로컬 최소 상태에 머물러 있고 구성에 따라 나중에 수렴하기 시작한다는 것입니다. 나는 1000 개의 노드를 가진 두 개 및 세 개의 숨겨진 레이어로 네트워크를 처음 시도했으며, 몇 개의 신기원 이후에는 네트워크가 수렴하기 시작했습니다. 나는 1000 개의 노드가 너무 많아서 100으로 낮춘다는 것을 깨달았습니다. 그 결과, 네트워크는 설명 된대로 동작하고, 먼저 수렴하고 약간 발산합니다. 그래서 숨겨진 레이어를 추가하기로했습니다. 현재, 6 개의 숨겨진 레이어, 각각 80 개의 노드가있는 네트워크를 테스트 중입니다. 현재의 손실은 다음과 같습니다 :
경험이 많은 기계 학습 전문가는 어떻게 생각하십니까? 구성에 문제가 있습니까? 어떤 종류의 네트워크를 선택 하시겠습니까?
나는 모든 제안을 기쁘게 생각합니다.
답장을 보내 주셔서 감사합니다. 조합 폭발을 고려해 볼 때, 나의 접근 방식은 가능한 히트 위치와 패들의 위치 사이의 거리와 같은 보상을 더하거나, 우선 좋은 플레이어의 움직임을 보여주고 나중에 배우게하는 것입니다. 왜 종이가 가짜라고 생각합니까? 나는이 분야에서 새로운 사람들이고 당신의 의견을 듣고 싶습니다. 당신이 저에게 메시지를 쓰거나 당신의 의견을 표현하는 기사를 보내 주면 좋을 것입니다. – Koanashi