2012-01-28 3 views
0

wav 파일을 사용하지 않고 음성 인식 프로세스에 mp3 파일을 사용할 수 있습니까? 또는 mp3에서 wav 파일을 생성 한 다음 정확도에 심각한 영향을 미치지 않고 음성 인식을 수행 할 수 있습니까? 문제는 응용 프로그램에서 네트워크를 통해 전송되는 부하를 최소화해야한다는 것입니다. 전환시 손실되는 정보가 정확성을위한 큰 요소일까요?스핑크스를 사용하여 mp3 인식 4

답변

1

wav 파일을 사용하지 않고 음성 인식 프로세스에 mp3 파일을 사용할 수 있습니까?

직접적으로. mp3 스트림을 인식하려면 mp3를 읽고 pcm 스트림 (tritonus-mp3, lameonj)으로 변환 할 때 java 라이브러리를 사용해야합니다. ffmpeg를 별도의 프로세스로 호출하여 디코딩 할 수도 있습니다.

또는 mp3에서 wav 파일을 생성 한 다음 정확도에 심각한 영향을 미치지 않고 음성 인식을 수행 할 수 있습니까?

정확도는 두 경우 모두 당신이 MP3 파일을 디코딩 상관없이 영향을 받는다.

문제는 응용 프로그램에서 네트워크를 통해 전송되는로드를 최소화해야한다는 것입니다. 변환에서 손실되는 정보가 정확성의 중요한 요소일까요?

flac과 같은 무손실 코덱을 사용하는 것이 좋습니다. mp3 변환은 ASR 정확도를 저하시킵니다. 또 다른 방법은 클라이언트에서 기능을 계산하여 서버로 전송하는 것입니다.

+0

감사합니다. :) flac을위한 자바 플러그인도 있습니까? – SDK

+1

예 (예 : http://jflac.sourceforge.net/) –