2017-12-28 73 views
0

방금 ​​tts & stt (텍스트 음성 변환 & 음성 - 텍스트)에 관한 새로운 프로젝트를 생각해 봤습니다. 해결해야 할 까다로운 몇 가지 문제를 해결했습니다.음성 인식 용 오디오 녹음

  1. 오디오는 어떻게 녹음합니까? 이 시점에서 언어에 대해 신경 쓰지는 않습니다. 나는 함께 참조하는 여러 청크를 어떻게 녹음 할 수 있을지 관심이 있습니다. "Jarvis Turn On Light Two"라고 말하고, "whatever.wav"로 저장해야한다고 가정 해 봅시다. 그렇다면 모든 단어를 2 초 간격으로 말했습니다. 그런 다음 내 레코딩 소프트웨어는 첫 번째 단어 인 "Jarvis Turn On"을 TensorFlow로 그룹화하고 처리해야한다고 가정하고 그 다음 오디오 청크는 "Light Two"라는 단어로 처리되어 아무 의미도 없을 것입니다. 의미있는 오디오를 녹음 할 수있는 다른 방법이 있습니까? 어쩌면 문지르 기 때문에 특정 양의 노이즈가 주어질 때만 기록됩니까?
  2. 어떤 언어를 사용해야합니까? 전체 시스템이 Linux에서 백그라운드 프로세스로 실행되어야합니다. TensorFlow에는 다양한 언어가 지원됩니다. 일단 내가 가장 신경을 쓰는 것은 C++ 또는 Java입니다. 여기에서 가장 중요한 질문은 소프트웨어를 연속 모드로 실행할 수있는 방법입니다. 따라서 서버가 켜지면 레코딩 소프트웨어를 시작하고 계속해서 "whatever.wav"파일을 듣고 생성해야합니다.
  3. 스레딩과 옵션 또는 필요합니까? 녹음 소프트웨어가 백그라운드 프로세스로 Linux에서 실행 중입니다. 그것은 내 말로 된 단어를 듣고 하나의 "whatever.wav"파일로 그룹화해야합니다. 이 파일을 업데이트 한 후 TensorFlow는 파일을 스캔하고 내가 훈련 한 파일을 출력합니다. 나는 기본적으로 무한한 상태 기계에 익숙하지 않다. 그래서 기본적으로 내 질문이다.

저는이 주제에 대해 매우 신심을 가지고 있습니다.

LG 전자 마이클

답변

0

어떻게 오디오를 녹음 할 수 있습니까? 의미있는 오디오를 녹음 할 수있는 다른 방법이 있습니까? 어쩌면 문지르 기 때문에 특정 양의 노이즈가 주어질 때만 기록됩니까?

작은 청크 0.1 초 단위로 오디오를 녹음하고 결과를 누적하여 하나씩 처리합니다. 키워드가 감지되면 작업을 수행합니다. 결과를 wav 파일에 저장할 필요가 없습니다. 모든 것을 메모리에 보관할 수 있습니다. 당신은 예를 들어 기존 소프트웨어를 확인할 수 있습니다

https://github.com/castorini/honk

나는 어떤 언어를 사용 하는가? 전체 시스템은 Linux에서 백그라운드 프로세스로 실행되어야합니다. TensorFlow에는 다양한 언어가 지원됩니다. 일단 내가 가장 신경을 쓰는 것은 C++ 또는 Java입니다.

TF 개발의 대부분은 스레딩되어 파이썬

및 옵션 또는 필요로 이루어집니다? 레코딩 소프트웨어는 Linux에서 백그라운드 프로세스로 실행됩니다.

스레딩이 필요하지 않습니다. Linux 커널은 소프트웨어가 처리하는 동안 오디오를 내부적으로 버퍼링합니다.