데비안 Squeeze를 실행하는 VM에 Pocketsphinx0.7을 설치했습니다. 이게 잘 작동하고 files.Haf에서 연설을 인식하려고 내가 할 수있는 파일의 무리를 인식하고 다음 오류 비율을 추정 일부 파이썬 스크립트를 구축했습니다. 이들은 this tutorial에서 설명한 gstreamer를 사용합니다.Pocketsphinx를 올바르게 구성하십시오.
지금까지 pocketsphinx tarball에 있던 원래 hmm을 사용하고 있습니다.이 테스트에는 단순히 내 테스트 데이터의 단어와 교수가 가져온 최적화 된 언어 모델이 포함되어 있습니다. 이것은 프로덕션 시스템에서도 실행되기 때문에 작동해야합니다. 내 문제는 인식 성능이 여전히 끔찍하다는 것입니다. 약 85 %의 단어 오류 (WER)가 있습니다.
내가 알고 싶은 것은 WER을 개선 할 수있는 방법입니다. 어떤 종류의 조치를 취할 수 있습니까?
성능에 영향을주는 또 다른 문제는 pocketsphinx가 hmm에 액세스 할 수있는 권한이 없다는 것입니다.하지만 모든 사람들이 읽고 쓸 수 있고 실행할 수있게 만들었습니다.
어디에서 발생했는지 알 수 있습니까? 나는 어떤 도움을 주셔서 감사합니다. 자세한 정보가 필요하면 알려주십시오.
는 편집 :
나는 작은 테스트 세트를 생성 pocketsphinx을 달렸다. This is where you can find the files and the results. 에게 원래 테스트 세트의 몇 가지 예를 들어 줄 수있게되었습니다. 너 can find it here.
이것은 최악의 예입니다. 1-2 단어의 짧은 발음은 잘 작동합니다. 죄송합니다. 지금까지 큰 테스트를 만들 수 없었기 때문에 시간이 매우 제한되었습니다.
참조 . 모든 것이 gstreamer 플러그인을 통해 작동하기 때문에 페이지에서 다루지 않습니다 (적어도 찾지 못했습니다). 법적 문제로 인해 샘플을 공유 할 수는 없지만 가설과 필사본 만 공유 할 수 있습니다. 나는 그것을 내 게시물로 편집 할 것이다. 답변 주셔서 감사합니다 – elramino
다시 확인한 결과 출력물을 공유 할 수 없습니다. 나는 무료 예제를 가지고 결과를 최대한 빨리 게시 할 것이다. – elramino
지금 공유 한 데이터가 있으면 사용하는 언어 모델이 정확하지 않은 것으로 보입니다.짧은 단어가 작동한다고 말하면, 가장 먼저 짧은 단어를 인식하도록 언어 모델이 훈련 될 가능성이 큽니다. 공유 한 세트의 기본 pocketsphinx 모델에서 오류율은 85 %가 아니라 64 %입니다. 좋은 언어 모델을 사용하면 40 %가 될 수 있습니다. 영국 영어가 아닌 영국 영어를 녹음 한 것을 볼 수 있습니다. 미국 영어 모델에서 영국 영어로 어쿠스틱 모델을 적용하면 오류율을 20 % 또는 그 이하로 줄일 수 있습니다. –