Swift로 녹음 된 오디오 파일을 텍스트로 변환하기

iOS 용 Swift로 오디오를 녹음하고 녹음 된 오디오 파일을 재생할 수 있습니다. 내가 듣기로는 녹음 된 오디오 파일의 배경 잡음이 & 볼륨/데시벨인지 확인할 수 있다면 텍스트 프레임 워크에 대한 내 말하기에 충분하다고 판단 할 수 있습니다. 프레임 워크는 문제가 아니며 가능한 모든 것들을 연구했습니다.Swift로 녹음 된 오디오 파일을 텍스트로 변환하기

AVFoundation 또는 Accelerate Framework 또는 다른 프레임 워크를 사용하여 녹음 된 오디오 파일을 분석하여 오디오 파일이 음성 텍스트 프레임 워크로 처리 할 수 있는지 여부를 확인할 수 있는지 궁금합니다.

나는 많은 오디오 지식을 가지고 있지 않지만 약간 연구했고 녹음 중에 피크 및 평균 데시벨 값을 얻을 수 있지만 배경 소음은 무엇인지 알 수 있습니까?

정보는 Swift로 녹음 된 오디오 파일을 분석하는 데 도움이됩니다.

출처

2016-07-06 Tom Spee

'swift'와 'objective-c'는 실시간 우선 순위로 실행되는 심각한 프로그램의 DSP 스레드에서 거의 찾을 수없는 고급 언어입니다. 왜? 문제를 찾고있는 경우를 제외하고는 편안한 물건 (객체 할당, 메모리 관리, 폴링 및 블로킹 등)은 실시간 스레드에서 수행 할 수 없기 때문입니다. DSP 코드의 경우 _fast_를 실행하는 것이 중요합니다. 따라서 UI 나 컨트롤러를 '신속하게'작성할 수는 있지만 SNR 추정과 같은 DSP 부분에 대해 가장 안전한 방법은 _plain-C_로 떨어집니다. – user3078414

SNR 추정은 꽤 발달 된 도메인입니다. 음성으로부터 소리를 분리하고 잡음 에너지와 신호 에너지를 따로 계산 한 다음 비율을 계산하는 음성 활동 탐지기를 구현해야합니다. 이것은 약간 간단한 수학을 넘어서지만, here으로 구현 된 Wada SNR과 같은 합리적인 알고리즘을 구현하기 위해 통계를 이해해야합니다.

Swift에서 구현을 찾을 수 없으며 일반적으로 C 또는 Matlab에서 구현됩니다. 구현을 이식해야합니다.

노이즈 추정은 음성 인식에 비해 사소한 문제로 훨씬 더 고급 알고리즘이 필요합니다. Swift에서 음성 인식을위한 기존 패키지를 TLsphinx 또는 OpenEars과 같이 생각하는 것이 좋습니다.

출처

2016-07-06 10:28:43

감사합니다. 그래서 지금까지 검색 한 것처럼 Swift/Objective-C에서 SNR이나 VAD에 대한 해결책은 없습니다. 음성 인식은 이미 작동하지만 제안에 감사드립니다. 필자는 녹음 중에 audioRecorder에서 dB 단위로 반환 된 평균 및 최대 전력을 분석 할 수 있으므로 지금까지 발견 된 유일한 분석 결과입니다. –

@ Nikolay Shmyrev wada snr을 사용하고 싶습니다. 언급 한 폴더를 다운로드했지만 설치 방법을 모르겠습니다. 어떤 문서도 찾을 수 없었습니다. – MAS

@Nikolay Shmyrev 비슷한 문제에 대한 새로운 질문을 시작했습니다. – MAS

Swift로 녹음 된 오디오 파일을 텍스트로 변환하기

답변

관련 문제