2

미리 정의 된 포즈를 모방해야하는 프로젝트에서 작업하고 있습니다. 사진은이 미리 정의 된 포즈를 모방 한 사람이 만듭니다. 그런 다음이 이미지에서 사람의 인간 포즈를 추출하고 미리 정의 된 포즈와 비교합니다. 마지막으로 스코어링 메커니즘은 두 포즈가 얼마나 잘 일치하는지 또는 전혀 일치하는지 결정합니다.스마트 폰에서의 인간 자세 추정/대조

스마트 폰용으로 개발하고 싶습니다. 이상적으로 모든 것이 스마트 폰 자체에 내장되어 실행됩니다. 이것은 구현이 CPU 또는 스마트 폰 GPU (예 : Moto G5 plus, 보드에 Adreno 506 GPU가 OpenGL을 지원함)에서 실행될 수 있음을 의미합니다. 임베디드 워킹은 필수는 아니지만, 예상치 않은 GPU가 포함 된 중앙 서버에 추정/매칭 알고리즘을 아웃소싱하는 것도 가능하다고 생각합니다. 임베디드 또는 아웃소싱이라는 특별한 선택은 성능/컴퓨팅 성능, 서버 비용, 정확성, 모바일 배터리 사용량, 지연 서버 통신, 멀티 플랫폼, 확장 성, 모바일 데이터 사용 등과 같은 많은 매개 변수를 포함하는 중요한 문제입니다. , ...)

Openpose 및 deepercut과 같은 사람 포즈 추정을위한 프레임 워크가 있다는 것을 알고 있습니다. 그러나 모두 깊은 학습을 사용하기 때문에 하강 GPU가 필요합니다. 요즘 대부분의 새로운 스마트 폰에는 GPU가 있지만 이러한 프레임 워크를 실행할 수 있습니까? 이 경우에는 (다중 인물) 키포인트 감지가 실시간 일 필요는 없습니다. 단 하나의 그림 (실시간 비디오 없음)이 있고 2 ~ 5 초의 지연 시간이 허용되기 때문입니다.

아직 연구 단계에 있기 때문에 어떤 방향으로 가야할지 모르겠다. 이러한 프레임 워크를 스마트 폰 플랫폼에 이식 할 수 있습니까? 예를 들어 Caffe와 OpenCV를 사용하는 Openpose와 같습니다. Openpose를 Android로 포팅하고 싶다고합시다. Caffe로 만든 CNN 모델을 CNNdroid 형식으로 변환 할 수있는 라이브러리 CNNdroid가 있다는 것을 알고 있습니다. 더 많은 OpenCV도 안드로이드 버전이 있으므로 큰 문제는 아닙니다. 그래서 이론적으로 가능할 수도 있지만 실제로는 무엇입니까?

제 질문은 : 스마트 폰에서 사람의 자세 탐지/일치 경험이있는 사람이 있습니까? 현재 GPU를 스마트 폰에서 사용할 수 있습니까? 나는이 넓은 질문 알지만, 어떤 방향/제안/경험은 정말

UPDATE 도움이 될 : 나는 Openpose이 TensorFlow에 (ML 프레임 워크로 CAFFE 사용) 이식의 옵션에 대해 생각하고 있어요 . TensorFlow는 두 가지 Android를 모두 지원합니다. & iOS

답변

1

Krafka 등이 사용하는 기술을 살펴볼 수 있습니다. 그들의 Eye Tracking for Everyone 프로젝트에서 그들은 시선 좌표를 추정하기위한 더 큰 네트워크를 스마트 폰에서 실행할 수있는 더 작은 네트워크로 압축하는 프로젝트를 진행했습니다. 이것은 Geoff Hinton이 개발 한 개념으로 Dark Knowledge이라고 불렀습니다. 시선 감지는 포즈 추정의 특별한 경우이므로 원칙적으로 이러한 기술이 도움이 될 것 같습니다. 그러나, 나는 그들이 당신의 목적에 충분히 효과적 일지 모르겠다. (나는 당신의 정확성 제약에 달려 있다고 생각한다.)

1

스마트 폰 응용 프로그램에 대한 여백이 너무 무겁습니다. 전화 시스템에 맞게 소프트웨어 아키텍처를 다시 설계해야합니다. 성능의 병목 인 cnn과 관련하여 mobilenet과 같은 구조를 사용하고 Dark Knowledge (언급 된 Mozglubov)는 더 얇은 네트워크를 가르치기위한 두 가지 유망한 접근 방법입니다. 어느 곳에서나 많은 엔지니어가 앞장서고 있습니다. 행운을 빕니다!