1

오디오 및 음성의 일반 텍스트 사본이 있다고 가정 할 때 음성 인식을 사용하여 어떻게 프로그래밍 방식으로 자막을 생성 할 수 있습니까?음성 인식을 통해 기존의 녹음 사본에서 자막 생성하기

이것은 비디오를 편집 할 때 YouTube가 캡션/자막 페이지에서 제공하는 것과 매우 비슷합니다.

어떤 API를 사용할 수 있습니까? 어떤 문제가 있습니까?

저는 Java/C#을 가장 잘 유창하지만 언어에 구애받지 않습니다.

답변