2012-06-28 1 views
4

데비안 Squeeze를 실행하는 VM에 Pocketsphinx0.7을 설치했습니다. 이게 잘 작동하고 files.Haf에서 연설을 인식하려고 내가 할 수있는 파일의 무리를 인식하고 다음 오류 비율을 추정 일부 파이썬 스크립트를 구축했습니다. 이들은 this tutorial에서 설명한 gstreamer를 사용합니다.Pocketsphinx를 올바르게 구성하십시오.

지금까지 pocketsphinx tarball에 있던 원래 hmm을 사용하고 있습니다.이 테스트에는 단순히 내 테스트 데이터의 단어와 교수가 가져온 최적화 된 언어 모델이 포함되어 있습니다. 이것은 프로덕션 시스템에서도 실행되기 때문에 작동해야합니다. 내 문제는 인식 성능이 여전히 끔찍하다는 것입니다. 약 85 %의 단어 오류 (WER)가 있습니다.

내가 알고 싶은 것은 WER을 개선 할 수있는 방법입니다. 어떤 종류의 조치를 취할 수 있습니까?

성능에 영향을주는 또 다른 문제는 pocketsphinx가 hmm에 액세스 할 수있는 권한이 없다는 것입니다.하지만 모든 사람들이 읽고 쓸 수 있고 실행할 수있게 만들었습니다.

어디에서 발생했는지 알 수 있습니까? 나는 어떤 도움을 주셔서 감사합니다. 자세한 정보가 필요하면 알려주십시오.


는 편집 :

나는 작은 테스트 세트를 생성 pocketsphinx을 달렸다. This is where you can find the files and the results. 에게 원래 테스트 세트의 몇 가지 예를 들어 줄 수있게되었습니다. 너 can find it here.
이것은 최악의 예입니다. 1-2 단어의 짧은 발음은 잘 작동합니다. 죄송합니다. 지금까지 큰 테스트를 만들 수 없었기 때문에 시간이 매우 제한되었습니다.

답변

2

내가 알고 싶은 것은 WER을 개선 할 수있는 방법입니다. 어떤 종류의 조치를 취할 수 있습니까?

이 문제는 Pocketsphinx 자주 묻는 질문에 설명되어 있습니다 :

http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor

첫 번째 단계는 정확성을 개선하기 위해 도움이 필요한 경우

, 당신이 필요 시료의 데이터베이스를 수집하는 것입니다 당신이 찾고있는 데이터베이스와 결과 및 실제 결과를 공유하십시오. 여기 또는 Sourceforge 포럼에서 공유 할 수 있습니다. 모든 파일을 어딘가에 업로드하여 보관해야합니다. 그런 다음 여기에 링크를 제공 할 수 있습니다.

자세한 내용은 이미 내 문제는 내가 언어 모델을 무시 생각하는 내 결과에서 가난한 accuracy.Looking 주어진 잘못 pocketsphinx이 있어야한다는 것입니다 나는 CMU 스핑크스 자주 묻는 질문 보았다

http://cmusphinx.sourceforge.net/wiki/communicate

+0

참조 . 모든 것이 gstreamer 플러그인을 통해 작동하기 때문에 페이지에서 다루지 않습니다 (적어도 찾지 못했습니다). 법적 문제로 인해 샘플을 공유 할 수는 없지만 가설과 필사본 만 공유 할 수 있습니다. 나는 그것을 내 게시물로 편집 할 것이다. 답변 주셔서 감사합니다 – elramino

+0

다시 확인한 결과 출력물을 공유 할 수 없습니다. 나는 무료 예제를 가지고 결과를 최대한 빨리 게시 할 것이다. – elramino

+0

지금 공유 한 데이터가 있으면 사용하는 언어 모델이 정확하지 않은 것으로 보입니다.짧은 단어가 작동한다고 말하면, 가장 먼저 짧은 단어를 인식하도록 언어 모델이 훈련 될 가능성이 큽니다. 공유 한 세트의 기본 pocketsphinx 모델에서 오류율은 85 %가 아니라 64 %입니다. 좋은 언어 모델을 사용하면 40 %가 될 수 있습니다. 영국 영어가 아닌 영국 영어를 녹음 한 것을 볼 수 있습니다. 미국 영어 모델에서 영국 영어로 어쿠스틱 모델을 적용하면 오류율을 20 % 또는 그 이하로 줄일 수 있습니다. –