저는 Microsoft의인지 서비스를 사용하고 있습니다. 오디오 입력이 있고 여러 명의 발표자와 개별 텍스트를 식별해야합니다.오디오 입력에서 여러 스피커와 해당 텍스트를 식별하는 방법은 무엇입니까?
내 이해에 따르면, Speaker Rekognition API는 다양한 개인을 식별 할 수 있으며 Bing Speech API는 음성을 텍스트로 변환 할 수 있습니다. 그러나 동시에 두 가지 작업을 수행하려면 오디오 파일을 수동으로 분할하여 (일시 정지/무음에 따라) 오디오 스트림을 개별 서비스에 보내야합니다. 그것을 할 수있는 더 좋은 방법이 있습니까? AWS Lex/Polly 또는 Google의 서비스와 같이 전환해야하는 다른 생태계는 무엇입니까?