2017-12-13 11 views
4

손의 RGB 이미지와 손의 키포인트의 3D 위치가 데이터 세트로 주어지면 DL에서 회귀 문제로이 작업을 수행하려고합니다. 이 경우 입력은 RGB 이미지이며, 출력은 키포인트의 3D 위치로 추정해야합니다.
회귀에 대한 정보를 보았지만 대부분은 하나의 단일 값을 추정하려고합니다. 한 번에 여러 값 (또는 출력)을 추정 할 수 있습니까?깊은 학습을 사용하여 회귀에서 다중 출력 구하기

지금은 이것을 code이라고합니다. 이 사람은 이미지에서 사람의 나이를 추정하려고합니다.

답변

1

신경망의 출력 벡터는 손실 함수를 잘 정의하는 한 무엇이든 나타낼 수 있습니다. 10 개의 키포인트의 (x, y, z) 좌표를 감지하고, 30 개의 요소가있는 긴 출력 벡터 say (x1, y1, z1, x2, y2, z2 .......... ...., x10, y10, z10) 여기서 xi, yi, zi는 i 번째 키포인트의 좌표를 나타내며 기본적으로 편리한 순서로 사용할 수 있습니다. 손실 기능에주의하십시오. RMSE 손실을 계산하고 싶다면 tripes를 정확하게 추출한 다음 각 키포인트에 대해 RMSE 손실을 계산해야합니다. 선형 대수학에 익숙하다면 올바르게 3x10 행렬로 변형하고 결과를 3x10 매트릭스 후 바로

loss = tf.sqrt(tf.reduce_mean(tf.squared_difference(Y1, Y2))) 

를 사용하지만, 당신이 당신의 그물을 공식화 일단 당신이 그것에 충실해야합니다.

+0

감사합니다. 귀하의 의견과 [this] (https://qiita.com/cvusk/items/1439c1c6dde160c48d13)이 내 문제를 해결했습니다. – Theodore