Google 클라우드 음성을 사용하여 긴 형식의 내레이션 된 오디오 파일을 변환하는 중이고 오디오 파일의 각 구문의 시작 시간을 알아야합니다. Google 클라우드 음성으로이를 수행 할 수있는 방법이 있습니까? 현재 transcribe_async.py
으로 작업하고 있습니다. 감사합니다. .Google 클라우드 음성 : 단어 시작 시간
1
A
답변
1
Google 클라우드 음성으로는 불가능합니다. 그 정보가 중요하다면 다른 ASR 시스템을 조사해야 할 수도 있습니다. Kaldi과 CMU Sphinx과 같은 오프라인의 비 호스팅 ASR 시스템이이 정보를 제공한다는 것을 알고 있습니다. 나는 ASR 시스템이 어떤 정보를 제공 할 수 있는지 여부를 모른다.
0
enableWordTimeOffsets 옵션을 True로 설정하여 각 단어의 시작 시간과 종료 시간 (오디오 트랙의 시작 부분부터)을 얻을 수 있습니다. https://cloud.google.com/speech/docs/async-time-offsets.
사본의 첫 단어 시작 시간은 항상 0이며 각 단어 시작 시간은 이전 단어 종료 시간 (일시 중지가있는 경우에도 해당)과 일치한다는 점에 유의하십시오.
도움 주셔서 감사합니다. – Hephaestus