고객에게 전화 센터에있는 고객과 전화를 거는 고객 간의 실제 대화가 포함 된 오디오 파일에 "Bing Speech To Text API"를 사용하려고합니다. 그의 의심을 해결하기위한 센터. 따라서이 오디오에는 두 사람이 이야기하고 고객이 지원에서 응답을 기다리는 동안 긴 침묵 기간을 갖는 경우가 있습니다. 이 오디오의 길이는 5-10 분입니다.Bing Speech to Text API가 매우 잘못된 텍스트를 반환합니다.
내 의심의 여지가 있습니다 :
텍스트와 같은 오디오를 변환하는 가장 좋은 aproach는 마이크로 소프트인지 서비스를 사용하여 무엇입니까?
Bing Speech To Text 외에 어떤 API를 사용해야합니까?
Bing Speech To Text로 보내기 전에 오디오를 잘라내거나 변환해야합니까?
Bing Speech to Text API가 오디오 콘텐츠와 매우 다른 매우 매우 다른 텍스트를 반환하기 때문에 나는 묻습니다. 그것을 사용하거나 undertand하는 것은 불가능합니다. 그러나 물론, 나는 실수를하고 있다고 생각합니다.
제발, 이런 식으로 오디오 파일 작업을하는 가장 좋은 전략을 설명해 주시겠습니까?
나는 어떤 도움을 주셔서 대단히 감사하겠습니다. 베스트 레자들,
코드를 공유 할 수 있습니까? – Mehdi
압축되지 않은 pcm을 보내야 할 때 압축 된 오디오를 보내는 것처럼 입력 데이터 형식이 잘못된 것 같습니다. 이러한 작업을 위해서는 Kaldi와 같은 특수 API를 사용하는 것이 좋습니다. –