텍스트 정렬에 cmusphinx를 사용하고 있습니다. 최신 sphinx4를 다운로드하고 코드와 함께 제공되는 WSJ 어쿠스틱 모델과 사전을 사용하여 데모 중 하나를 수정하여 텍스트 정렬기를 만듭니다. 그것은 occacionally하지만 많은 텍스트를 정렬하는 아주 좋은 발음을 위해 일을 그냥 실패합니다.실제로 텍스트 정렬에 cmusphinx를 사용하면 인식 성공률을 어떻게 향상시킬 수 있습니까?
이유는 무엇입니까? 내가 사용하는 언어 모델이 너무 제한되어 있으며 인식기에 공급할 모델 데이터를 더 다운로드해야합니까? 다른 언어 모델로 테스트하고 소프트웨어를 구성 할 필요가 없도록 미리 포장 된 스핑크스 배포본이 있습니까?
그리고 덕분에 많이 :) 여기
내가
byte[] bytes = readContentOfAOggFile();
ByteArrayInputStream inputStream = new ByteArrayInputStream(bytes);
grammar = (ResetableTextAlignGrammar) cm.lookup("textAlignGrammar");
grammar.setTextAfterAllocation(referenceText);
AudioInputStream ai = AudioSystem.getAudioInputStream(inputStream);
dataSource.setInputStream(ai, null);
dataSource = (AudioFileDataSource) cm.lookup("audioFileDataSource");
dataSource.setInputStream(stream, null);
result = recognizer.recognize();
, 문제 것이 코드는 반 한 단어 문장 작동 있습니다 생각 코드입니다.
내 데이터 파일을 보시려면 여기를 클릭하십시오 : https://www.dropbox.com/sh/dw9qvk9d4m1s32q/pEpGsPPwki – tactoth
모든 16k 모노 사운드 파일입니다. – tactoth
공유 파일은 ogg이며, 이제는 wav입니다. 당신이 맞추는 텍스트는 무엇입니까? –