2016-10-06 1 views
1

사람은 음성 인식 응용 프로그램을 만들기위한 경험을 사용하여 twilio과 뉘앙스 ASR (https://developer.nuance.com/public/index.php?task=memberServices)가 있습니까? \Twilio와 뉘앙스 ASR은 가능성

나는 그것이 가능하지 것이다 시간 지연을 생각하고 있어요. 예를 들어, 사용자에게 말하고 뉘앙스가 그것을 인식하고 필자에게 필사본을 돌려 주도록 요구했다면 필자는 시스템에서 필자가 추가 조치를 취하는 데 너무 오래 걸리는 것으로 보았습니다. 사용자의

  1. 캡처 오디오, twilio에서
  2. 걸릴 음성 녹음 URL,
  3. 그런 다음 내 데이터
  4. 을 상대로 뉘앙스에서
  5. 일치하는 단어를 전사를 가지고 뉘앙스하는 오디오 파일 전달
  6. 적절한 조치 받기

이 모든 것이 공정해야합니다 신속하지만 발신자가 받아 들일만큼 빠르습니까?

어떤 생각 당신에게

PS 감사 좋은 것입니다. Nuance라는 태그를 만들려고 시도했지만 허용되지 않았습니다.

답변

2

현재 실시간 번역을 제공하는 통신 플랫폼에서 작업 중이며 Twilio를 우리의 자동 제공 플랫폼 공급자로 사용하고 있습니다. 번역 된 음성 통화 기능. Nuance의 ASR 기술은 평균 이상으로 낮은 대역의 오디오에는 절대 사용할 수 없습니다. Google Cloud Speech API를 확인하십시오. 나는 그걸로 아주 좋은 결과를 얻었다. ASR은 3-5 초 정도 걸립니다.

+0

고맙습니다. 결과가 처리되는 데 3-5 초가 소요됩니다. 홀드 톤이나 음악을 연주합니까? – stormyguy

0

Nuance Recognizer는 저 대역 오디오와 함께 작동합니다. 사실 전화 통신 환경에서 사용하도록 설계되었습니다. 이전에는 설명이 잘못되었습니다. 그러나 문제는 부분 인식을 위해 적시에 Twilio에서 Recognizer로 오디오 스트림을 가져 오는 것입니다. 일반적으로 Nuance Recognizer는 MRCP를 사용하는 IVR 플랫폼과 통합되지만 Twilio가이 프로토콜을 지원하지는 않는다고 생각합니다. 따라서 제 3 자 엔진을 사용하는 경우 구문을 기록한 다음 ASR 인스턴스에 제출 (전송)하고 응답을 처리 한 다음 결과를 Twilio로 되돌려 보내야 할 수 있습니다. 이는 ASR 엔진이 부분적으로 처리 할 수 ​​없으므로 지연을 유발할 수 있습니다 오디오. 문제의 간단한 예 - 누군가가 10 초 동안 말하면, 결과는 10 초 (녹음 시간) + 전송 시간 + 처리 시간 + Twilio로 되돌아 오는 시간 동안 Twilio로 되돌아 가지 않습니다.