2016-12-20 5 views
0

숨겨진 마르코프 모델을 기반으로 음성 인식 프로그램을 만들 예정입니다. 불행히도, 나는 입력 사운드 시퀀스를 얻는 법을 알지 못하고 잘 작동한다. 누구든지 사운드 파일 형식 (예 : .wav, .mp3 등)에서 값을 읽고 사운드 트랙을 C++로 분할하는 일반적인 방법은 무엇인지 말해 줄 수 있습니까?숨겨진 마르코프 모델 기반 음성 인식 프로그램 입력

+0

http://en.cppreference.com/w/cpp/links/libs#Audio – macroland

+0

기존 소프트웨어의 기능을 확인하는 것이 좋습니다. –

답변

0

일반적인 접근법은 입력 사운드를 일련의 특징 벡터 (일반적으로 MFCC)로 변환하는 것입니다. 이 프로세스는 일반적으로 CMU Sphinx wiki에 설명되어 있으며, 자세한 내용은 HTK Book에 설명되어 있습니다. 일반적인 목적으로 openSMILE toolkit을 연구하여 C++에서 어떻게 수행되는지 확인할 수도 있습니다.