2016-11-12 2 views
0

나는 스페인어로 cmusphinx를 시도하고있다. 나는 스페인어 모델을 다운로드했는데 정확성이 떨어졌습니다 ...cmusphinx에서 사전에서 단어를 제거하려면 어떻게해야합니까?

나는 "es.dict"에서 모든 단어를 덜 필요로했습니다. 그리고 정확도가 100 %로 변경됩니다 (단어의 99 % 제거 ...).

그러나이 변경으로 성능에 대한 또 다른 문제점이 발생했습니다. 시스템에서 "es-20k.lm"파일의 각 단어를 읽으려고합니다.

내 출력 제거한 각 단어이 도시 : "2016 년 11 월 12 오후 11시 5분 14초 edu.cmu.sphinx.linguist.dictionary.TextDictionary getWord 관한 것은 : 사전은 단어의 발음 전사 누락 'argumento' "

스페인어 모델에서 사용되지 않은 단어는 어떻게 제거 할 수 있습니까? 것이 가능하다? 이 모델의 사전을 수정하고 사용하지 않은 단어를 삭제하기 만하면됩니다. (나는이 순간에 약 50 단어 만 원한다.).

설명서에 제안 된 도구를 시도했지만 이해가되지 않거나 어떻게 보이지 않습니다.

감사합니다.

답변

1

사전을 동일하게 유지해야합니다. 텍스트 편집기에서 문법을 작성하거나 언어 모델을 language model tutorial에 의해 권고 된 srilm으로 작성해야합니다.

전반적으로 언어 어휘를 줄이는 것이 정확도를 향상시키는 유일한 방법은 아니지만 일반적으로 노이즈, 녹음 조건 불일치 및 기타 요소로 인해 정확도가 떨어집니다. 당신은 그들과 함께 일해야합니다.