2

저는 Microsoft의인지 서비스를 사용하고 있습니다. 오디오 입력이 있고 여러 명의 발표자와 개별 텍스트를 식별해야합니다.오디오 입력에서 여러 스피커와 해당 텍스트를 식별하는 방법은 무엇입니까?

내 이해에 따르면, Speaker Rekognition API는 다양한 개인을 식별 할 수 있으며 Bing Speech API는 음성을 텍스트로 변환 할 수 있습니다. 그러나 동시에 두 가지 작업을 수행하려면 오디오 파일을 수동으로 분할하여 (일시 정지/무음에 따라) 오디오 스트림을 개별 서비스에 보내야합니다. 그것을 할 수있는 더 좋은 방법이 있습니까? AWS Lex/Polly 또는 Google의 서비스와 같이 전환해야하는 다른 생태계는 무엇입니까?

답변

2

나는 현재 같은 일을 찾고 있어요.

팀 Bunce에 사이의 자세한 비교를 만들었습니다 현재의 필사자.

https://blog.timbunce.org/2016/03/22/semi-automated-podcast-transcription-2/

나는 이것이 약간의 시간을 절약 할 수 있기를 바랍니다.