2017-12-06 17 views
0

WAV 파일뿐 아니라 MP3 용 Watson Speech to Text API도 사용해 보았습니다. 내 관찰에 따르면 WAV에 비해 MP3 형식으로 주어진 오디오의 길이가 더 짧습니다. 다른 오디오를 사용하는 연속 된 10 건의 API 호출은 MP3 파일의 경우 평균 8.7 초가 걸렸습니다. 반면 WAV 형식의 동일한 입력에는 평균 11.1 초가 걸렸습니다. 서비스 응답 시간은 파일 유형에 따라 다릅니 까? 결과를 빨리 얻으려면 어떤 파일 형식을 사용 하시길 권장합니까?Watson Speech To Text 서비스는 어떤 종류의 오디오 파일에 대해 더 빨리 작동합니까?

+0

어떻게 측정하나요? 업로드 또는 네트워크 시간 포함 후입니까? –

+0

네트워크 시간 포함. 2-3 초 내에 네트워크 성능을 고려할 필요가 없습니다. 어쨌든 MP3는 WAV보다 빠르게 작동합니다. 그래서 성능이 파일 유형의 영향을 받는지 알고 싶습니다. – ShwetaJ

+0

mp3 파일이 일반적으로 wav보다 작기 때문에 묻습니다. 두 경우에 얼마나 많은 데이터가 전송되었는지 확인 했습니까? –

답변

1

서로 다른 인코딩 형식은 서로 다른 비트 전송률을 사용합니다. mp3 및 opus는 손실 압축 형식 (비트 전송률이 너무 낮지 않은 경우 음성 인식에 적합 함)이지만 가장 낮은 비트 전송률을 제공합니다. 네트워크에서 일반적으로 대기 시간을 줄이기 위해 바이트 수를 줄여야하는 경우 네트워크 속도에 따라 더 낮은 비트 전송률로 인코딩 할 때 처리 시간이 단축됩니다.

그러나 실제 음성 인식 프로세스 (네트워크를 통한 데이터 전송 무시)와 관련하여 모든 인코딩은 인식이 시작되기 전에 모든 오디오가 필요에 따라 압축 해제되고 대상 모델의 샘플링 속도로 변환되기 때문에 모든 인코딩이 똑같이 빠릅니다 (광대역 또는 협 대역).

+0

정말 고마워요. 나는 내 질문에 대답한다고 생각한다. 그것은 전적으로 요구 사항에 달려 있습니다. 낮은 레이턴시가 요구된다면 손실 부호화 포맷이 사용될 수있다. 정확도가 가장 중요하고 일부 대기 시간이 허용되면 무손실 인코딩 형식을 사용해야합니다. – ShwetaJ

+0

그래,하지만 허용 비트 전송률을 사용하면 opus와 같은 손실 형식은 측정 가능한 방식으로 정확성을 저하시키지 않습니다. opus를 사용하면 두 세계에서 최상의 결과를 얻을 수 있으며 최상의 지연 시간과 정확성의 손실은 없습니다. 열쇠는 올바른 비트 전송률을 선택하는 것입니다.이 값은 https://wiki.xiph.org/Opus_Recommended_Settings로 시작할 수있는 값을 가진 좋은 목록입니다. 이것은 또 다른 흥미로운 자료입니다 : http://opus-codec.org/comparison/ –

+0

입력에 감사드립니다. – ShwetaJ