필자는 내 어쿠스틱 모델을 훈련했으며 작은 데이터 (베트남어 10 단어)에 대해 허용 가능한 정확한 속도 (85 %)를 받았습니다. 그러나이 모델을 Transcriber 샘플 (Sphinx 4 패키지)에 통합하고 10 단어 위에있는 단어를 쓰려고하면 "비 재귀 적 분할로 떨어지는"목록을 받았습니다. 대신 단어를 출력해야합니다. Here은 내 프로젝트입니다.
터미널을 통해 Mac OS X 10.9.1 이상에서 Sphinx4 버전 4-1.0beta6을 사용하고 있습니다. 저는이 SR 어플리케이션에서 아직 새로운 것 같습니다. 이미 HelloWrold 예제를 실행하고 그램 파일에 몇 가지 새로운 단어를 추가했습니다. 이제 사용자가 더 많은 문장을 받아들이 기 위해 도움이되는 규칙이나 무언가를 사용하고 싶습니다. 내
받아쓰기 모드에서 sphinx4를 사용하려고하지만 언어 모델에 대한 질문이 있습니다. 신청서에는 매우 큰 어휘가있을 것입니다. 즉, 모든 영어 단어를 사용할 수 있으며, 어떤 구절이 될지 모르겠습니다. 그래서 어떤 모델 언어를 사용해야합니까? Sphinx4에는 이러한 경우에 대한 특정 언어 모델이 있습니까?
텍스트 정렬에 cmusphinx를 사용하고 있습니다. 최신 sphinx4를 다운로드하고 코드와 함께 제공되는 WSJ 어쿠스틱 모델과 사전을 사용하여 데모 중 하나를 수정하여 텍스트 정렬기를 만듭니다. 그것은 occacionally하지만 많은 텍스트를 정렬하는 아주 좋은 발음을 위해 일을 그냥 실패합니다. 이유는 무엇입니까? 내가 사용하는 언어 모델이 너무
Sphinx 4에서 오디오 파일을 복사하도록 설정할 때 시간 인덱스 (또는 프레임 번호)를 얻으려면 어떻게해야합니까? 코드 I는 다음과 같다을 사용하고 있습니다 : audioURL = ...
AudioFileDataSource dataSource = (AudioFileDataSource) cm.lookup("audioFileDataSource");
da
저는 현재 짧은 스페인어 (MX) 인터뷰 (길이 ~ 2 분)의 오디오 필기자를 개발하고 있습니다. 나는 웹에서 서핑을하고 있지만이 것을 찾을 수 없다. 아마도 너무 쉽다. .jar를 실행하는 동안 나는 es_MX_broadcast ... voxforge 패키지의 /etc/h4.dict에있는 모든 단어를 악센트로 사용하여이 경고를 얻습니다. 전사 및 기타 오
내 목표는 사용자의 음성 입력을 사용하여 모터를 제어하는 것입니다. 따라서 음성 인식 부분에서는 Eclipse JAVA IDE (Standard 버전)에서 Sphinx 4 라이브러리를 사용하고 있습니다. 내 운영 체제는 Windows 7입니다. My Recognition 부분이 끝났으므로 sphinx 4 프로그램에서 사용자가 말하는 String을 출력합
이상하게 들립니다. 하지만, 안드로이드 폰에 기록 된 바이트 데이터를 스핑크스 4로 분석하고 싶습니다. 그리고, 좋은 결과가 없습니다. 이것이 내 구성 문제에서 비롯 될 것이라는 것을 알고 있습니다. Sphinx4에 대한 경험이 있다면 &과 같은 경험을 갖고 싶습니다. 내 환경을 설명 싶습니다 전화 (안드로이드, Nexsus 하나) 샘플링 속도 = 8000
나는 CMU 스핑크스로 어쿠스틱 모델을 훈련 중이다. 약 200 시간의 음성 데이터가 있습니다. 트레이닝 스크립트 (sphinxtrain 실행, 처음에는 4 개의 CPU 코어 중 100 개가 100 % 였고 컴퓨터가 뜨거워서 계산이 수행되었습니다.)하지만 이제 스크립트는 모듈 20, 3 단계에서 중단 된 것처럼 보입니다. 검사 결과 "Perl 5.12"의