오디오 입력에서 여러 스피커와 해당 텍스트를 식별하는 방법은 무엇입니까?

저는 Microsoft의인지 서비스를 사용하고 있습니다. 오디오 입력이 있고 여러 명의 발표자와 개별 텍스트를 식별해야합니다.오디오 입력에서 여러 스피커와 해당 텍스트를 식별하는 방법은 무엇입니까?

내 이해에 따르면, Speaker Rekognition API는 다양한 개인을 식별 할 수 있으며 Bing Speech API는 음성을 텍스트로 변환 할 수 있습니다. 그러나 동시에 두 가지 작업을 수행하려면 오디오 파일을 수동으로 분할하여 (일시 정지/무음에 따라) 오디오 스트림을 개별 서비스에 보내야합니다. 그것을 할 수있는 더 좋은 방법이 있습니까? AWS Lex/Polly 또는 Google의 서비스와 같이 전환해야하는 다른 생태계는 무엇입니까?

출처

2017-01-31 blackspacer