직관적으로, 거의 모든 객체의 다른 각도에서 12 개 정도의 2 차원 이미지가 주어지면 해당 객체의 3D 표현을 쉽게 구성 할 수 있어야합니다. 결과적으로 이러한 방식으로 달성 된 3D 표현의 라이브러리는 새로운 2D 이미지를 식별하는 데 사용될 수 있습니다.오브젝트 표현 및 인식을 어렵게 만드는 요인은 무엇입니까?
이 줄에는 어떤 문학 작품이 있으며, 왜 아직 강한 물체 인식을하지 못했습니까?
직관적으로, 거의 모든 객체의 다른 각도에서 12 개 정도의 2 차원 이미지가 주어지면 해당 객체의 3D 표현을 쉽게 구성 할 수 있어야합니다. 결과적으로 이러한 방식으로 달성 된 3D 표현의 라이브러리는 새로운 2D 이미지를 식별하는 데 사용될 수 있습니다.오브젝트 표현 및 인식을 어렵게 만드는 요인은 무엇입니까?
이 줄에는 어떤 문학 작품이 있으며, 왜 아직 강한 물체 인식을하지 못했습니까?
싶은 것은 실제로 가능하지만 3D 재건
(꽤 꾸물 거리지가) :
이러한 모든 문제를 해결할 수 있으므로 가정 해 보겠습니다. 그러면 이제 개체에서 3D 모양과 일치시키려는 새로운 그림을 볼 수 있습니다.
물론 새로운 그림에 맞는 모양의 2D 투영을 찾을 수는 있지만 검색 공간은 엄청납니다. 초기 3D 재구성을 위해 구축 한 기능 찾기 및 일치 시스템을 사용하여 새 사진을 기존 세트와 직접 일치시키고 대상에 맞는 위치를 찾는 것이 훨씬 쉽고 빠를 것입니다.
그럼 처음 3D 재구성을 만들면 두 번째 단계가 기본적으로 완료됩니다.
Photosynth은이 두 단계의 훌륭한 예입니다.사이트를 둘러보고 거기에있는 참조를 찾으십시오.
마지막 단계는 강력한 물체 인식으로 검색 공간을 상상해보십시오! 강한 물체 인식을 위해서, 당신이 알고 자하는 물체를 잘 표현하는 것 외에, 알고있는 물체의 공간을 찾는 좋은 방법이며, 새로운 물체를 표현하는 좋은 방법입니다 (물체의 이미지는 이 경우). 이것은 제가 거의 아는 바가 아닙니다.
다른 2D 이미지에서 동일한 대상을 일치시키는 데는 SIFT features이 있습니다. 그러나 이것이 3D로 잘 변환되지 않는다고 생각합니다.
"직관적으로"당신의 문제를 일으키는 단어입니다. 뇌는 순간적으로 수천 개의 숫자를 곱하는 것과 같은 특정 작업을 잘하도록 설계되지 않았습니다. 그러나 원시 컴퓨팅 파워의 경우 두뇌가 가장 빠른 컴퓨터를 단순한 틱 - 윙크 (약 10 밀리 초의 신경 반응 시간처럼 보입니다. 그러나 모든 10^14 정도의 뉴런이 모든 병렬 작업이 모든 최신 기계를 완전히 상쇄합니다). 그저 뇌가 그림 속의 물체를 인식하고, 소리 데이터를 파싱하고, 배경 소음 속에서 개별 스피커를 추출하는 것과 같이 계산적으로 복잡한 문제를 해결하도록 설계되었습니다. 수만 가지 유형의 객체를 분류하고 처리하는 방법을 학습합니다.
당신의 두뇌가 정말로 잘하도록 설계된 엄청나게 계산적으로 강렬한 것들은 사람에게 "직관적 인"것으로 보이는 것들입니다. 정말 잘하도록 설계되지 않은 것은 "직관력이 없거나"어려워 보입니다. 그러나 강건한 물체 인식을 위해서는 원시 계산이 필요합니다. (너무 많은 종류의 물체가 있고 그 중 많은 부분이 실제로 하위 객체와 다중 분류 및 비 강체 형태 (예 : "바지", "물", "개")가 있기 때문입니다. 컴퓨터에 대해서만 가능한 것으로 간주되는 것을 성취하기 위해 필요한 것 이상입니다. 일상적인 문제를 해결하기 위해 "상식"을 사용하는 것과 같은 일은 사람에게는 비슷하지만 계산적으로 매우 복잡합니다.
설명하는 내용은 인스턴스 인식입니다. 컴퓨터는 요즘 인스턴스 인식에 대한 훌륭한 작업을 수행 할 수 있습니다. 예를 들어, Google 고글은 금문교 및 에펠 탑과 같은 명소를 잘 인식하고 있습니다.
그러나 컴퓨터는 카테고리 인식 및 분류을 잘 수행하지 못합니다. 모든 종류의 조명 조건 하에서 모든 가능한 객체에 대해 수십 개의 2D 스냅 샷을 생성하는 것은 매우 신속하게 다루기가 어렵습니다. 개와 같은 특정 물체가 움직일 수 있다는 사실은 가능성의 공간을 훨씬 더 넓게 만듭니다. 컴퓨터가 훨씬 더 악화됩니다.
또한 생물학적 관점에서 우리의 시야는 약 1 억 픽셀입니다. 그래픽 카드는 이제 많은 양의 데이터를 실시간으로 렌더링 할 수있게되었습니다. 많은 양의 데이터를 이해하는 것은 계산 집약적입니다.
기계가 정보를 처리하는 5 년 된 능력에 도달하는 경우가 종종 있습니다. 그러나 얼마나 많은 데이터가 있는지 생각해 봅시다. 3 컬러 채널 및 픽셀 당 1 바이트 = 1 억 개의 픽셀 = 300MB/s. 이제 초당 30 프레임, 1 년에 31,556,926 초, 5 년을 곱하면 대략 1.4 엑사 바이트 (1.4x10^18)가됩니다.
글쎄, 컴퓨터에 설명해보십시오. – delnan
그건 도움이됩니다 ... 제 말은, 3d 장면 재구성 및 3d 오브젝트 재구성에 대한 연구가 있었고 3d 오브젝트와 2D 이미지를 일치시키는 것이 더 쉬운 문제가 될 수 있습니다. 뭐라 구요? –