실제로 텍스트 정렬에 cmusphinx를 사용하면 인식 성공률을 어떻게 향상시킬 수 있습니까?

텍스트 정렬에 cmusphinx를 사용하고 있습니다. 최신 sphinx4를 다운로드하고 코드와 함께 제공되는 WSJ 어쿠스틱 모델과 사전을 사용하여 데모 중 하나를 수정하여 텍스트 정렬기를 만듭니다. 그것은 occacionally하지만 많은 텍스트를 정렬하는 아주 좋은 발음을 위해 일을 그냥 실패합니다.실제로 텍스트 정렬에 cmusphinx를 사용하면 인식 성공률을 어떻게 향상시킬 수 있습니까?

이유는 무엇입니까? 내가 사용하는 언어 모델이 너무 제한되어 있으며 인식기에 공급할 모델 데이터를 더 다운로드해야합니까? 다른 언어 모델로 테스트하고 소프트웨어를 구성 할 필요가 없도록 미리 포장 된 스핑크스 배포본이 있습니까?

그리고 덕분에 많이 :) 여기

내가

byte[] bytes = readContentOfAOggFile(); 
ByteArrayInputStream inputStream = new ByteArrayInputStream(bytes); 

grammar = (ResetableTextAlignGrammar) cm.lookup("textAlignGrammar"); 
grammar.setTextAfterAllocation(referenceText); 


AudioInputStream ai = AudioSystem.getAudioInputStream(inputStream); 
dataSource.setInputStream(ai, null); 
dataSource = (AudioFileDataSource) cm.lookup("audioFileDataSource"); 
dataSource.setInputStream(stream, null); 

result = recognizer.recognize();

, 문제 것이 코드는 반 한 단어 문장 작동 있습니다 생각 코드입니다.

출처

2014-04-12 tactoth

왜 그럴까요?

당신은 당신이

에 대한 답변은 내가 사용하는 언어 모델이 너무 제한되어 내가 인식기를 공급하기 위해 더 많은 모델 데이터를 다운로드해야인가를 얻으려고 노력하고있는 데이터를 공유 할 필요가? 말도

다른 언어 모델을 테스트하고 소프트웨어를 구성에서 저를 절약 할 수있는 좋은 사전 패키지 스핑크스의 분포가 있습니까?

일단 테스트 데이터를 공유하면 그 곳에서 무슨 일이 일어나고 있는지 쉽게 말할 수 있습니다.

출처

2014-04-12 06:17:38

내 데이터 파일을 보시려면 여기를 클릭하십시오 : https://www.dropbox.com/sh/dw9qvk9d4m1s32q/pEpGsPPwki – tactoth

모든 16k 모노 사운드 파일입니다. – tactoth

공유 파일은 ogg이며, 이제는 wav입니다. 당신이 맞추는 텍스트는 무엇입니까? –

실제로 텍스트 정렬에 cmusphinx를 사용하면 인식 성공률을 어떻게 향상시킬 수 있습니까?

답변

관련 문제