방금 tts & stt (텍스트 음성 변환 & 음성 - 텍스트)에 관한 새로운 프로젝트를 생각해 봤습니다. 해결해야 할 까다로운 몇 가지 문제를 해결했습니다.음성 인식 용 오디오 녹음
- 오디오는 어떻게 녹음합니까? 이 시점에서 언어에 대해 신경 쓰지는 않습니다. 나는 함께 참조하는 여러 청크를 어떻게 녹음 할 수 있을지 관심이 있습니다. "Jarvis Turn On Light Two"라고 말하고, "whatever.wav"로 저장해야한다고 가정 해 봅시다. 그렇다면 모든 단어를 2 초 간격으로 말했습니다. 그런 다음 내 레코딩 소프트웨어는 첫 번째 단어 인 "Jarvis Turn On"을 TensorFlow로 그룹화하고 처리해야한다고 가정하고 그 다음 오디오 청크는 "Light Two"라는 단어로 처리되어 아무 의미도 없을 것입니다. 의미있는 오디오를 녹음 할 수있는 다른 방법이 있습니까? 어쩌면 문지르 기 때문에 특정 양의 노이즈가 주어질 때만 기록됩니까?
- 어떤 언어를 사용해야합니까? 전체 시스템이 Linux에서 백그라운드 프로세스로 실행되어야합니다. TensorFlow에는 다양한 언어가 지원됩니다. 일단 내가 가장 신경을 쓰는 것은 C++ 또는 Java입니다. 여기에서 가장 중요한 질문은 소프트웨어를 연속 모드로 실행할 수있는 방법입니다. 따라서 서버가 켜지면 레코딩 소프트웨어를 시작하고 계속해서 "whatever.wav"파일을 듣고 생성해야합니다.
- 스레딩과 옵션 또는 필요합니까? 녹음 소프트웨어가 백그라운드 프로세스로 Linux에서 실행 중입니다. 그것은 내 말로 된 단어를 듣고 하나의 "whatever.wav"파일로 그룹화해야합니다. 이 파일을 업데이트 한 후 TensorFlow는 파일을 스캔하고 내가 훈련 한 파일을 출력합니다. 나는 기본적으로 무한한 상태 기계에 익숙하지 않다. 그래서 기본적으로 내 질문이다.
저는이 주제에 대해 매우 신심을 가지고 있습니다.
LG 전자 마이클