2014-01-18 2 views
2

SPEED를 목표로하는 제한된 수의 명령에 대해 C++ (Windows 및/또는 Mac)에서 프로그래밍 음성 인식 경험이 있습니까? 이 시점에서 첫 번째 음절에서 명령을 인식하는 것이 현실적입니까? 즉, 명령은 합리적으로 빠른 말하기 템포로 두 번째 음절에 도달 할 때 인식됩니다. 모든 명령은 필요한 경우 다른 음절 (예 : "oo", "xy", "fay"- 약 30 개의 명령 만 필요함)로 시작하도록 프로그래밍됩니다. 비슷한 질문을했지만이 분야는 빠르게 움직이고 있습니다. 가장 좋은 아이디어는 오픈 소스 라이브러리를 찾거나 컴파일 된 구현과 인터페이스하는 것인가?제한된 수의 명령에 대해 빠른 음성 인식

+1

* "도구, 라이브러리 또는 좋아하는 오프 사이트 리소스를 추천하거나 찾도록 요청하는 질문은 독창적 인 답변과 스팸을 끌어 당기는 경향이 있으므로 스택 오버플로에 대해 주제를 벗어났습니다. 대신 문제와 그에 대한 설명을 설명하십시오. 멀리까지. "* – Manu343726

+0

그는 도서관 선택에 도움을 청하지 않고 있습니다. 그는 도서관이 처음 존재하기에 충분히 성숙한 지 궁금합니다. 주제 끄기, +1. – MSalters

답변

1

저는이 분야에서 전문적으로 일하고 있으며, 그것이 가능한지 여부를 심각하게 의심합니다. C++은 문제가 아니지만 문제는 컴퓨터가 허용하는지 여부입니다. 작은 사운드 클립의 오류율은 크므로 인식을 고정시키는 숨겨진 마코프 모델입니다. 그러나 귀하의 경우에는 충분한 데이터를 공급할 수 없습니다.

인간도 할 수있는 것은 아닙니다. 음성 처리는 당신의 두뇌가 당신을 믿게하는 것처럼 즉각적인 것은 아닙니다.

+0

그 이유는 가능한 한 많이 서로를 대조하는 작은 음절 세트 만 사용하여 매우 독특한 사운드를 가진 명령을 사용하려고 생각한 이유입니다. 고양이조차도 즉시 "쉬"를 인식 할 수 있습니다. – user3101050

0

CMUSphinx과 Pocketsphinx 디코더로이 작업을 수행 할 수 있습니다.

디코딩에 대한 부분적인 가설은 인식 과정에서 가능하며 일반적으로 발성되는 즉시 첫 음절을 얻을 수 있습니다. 안정화시키기 위해 0.1s를 지정하면 (사용자에게는 보이지 않음) 명령 세트에서 정확한 결과를 얻을 수 있습니다.

예를 들어 게임에서와 같이 실시간 제어를 위해 특별히 설계된 CMUSphinx 상단에 도구가 있어도 InProTK 및 데모를 확인할 수 있습니다.

+0

Windows SAPI를 사용하는 것보다 빠릅니다. 나는 모바일 애플리케이션에 관심이 없으며 처리 능력이 많은 PC에만 관심이 있습니다. CMUSphinx의 "자바로 작성된"기능 덕분에 조금 빠져 나올 수 있었지만, 충분히 빠를 수는 있지만 기본 Microsoft API가 빠르지는 않습니까? – user3101050

+0

Pocketsphinx는 C 디코더이며 C++에서만 사용할 수 있습니다. 자세한 내용은 http://cmusphinx.sourceforge.net/wiki/tutorialpocketsphinx를 참조하십시오. 자바에 대한 정보를 잘못 읽었습니다. –