this research paper에서 표준 벡터 양자화 알고리즘을 재현하여 훈련 데이터 세트를 기반으로 식별되지 않은 음성 입력의 언어를 정확하게 결정할 수 없습니다.음성 처리의 벡터 양자화 설명 설명
추상 정보 언어 인식 (예를 들어, 일본어, 영어, 독일어 등) 음향 기능을 사용하여 현재 음성 기술에 대한 중요한 아직 어려운 문제입니다 : 여기에 몇 가지 기본 정보입니다. ...이 신문에 사용 된 음성 데이터베이스는 20 개의 언어를 포함합니다 : 16 4 명의 남성과 4 명의 여성이 두 번 문장을 발급했습니다. 각 문장의 지속 시간은 약 8 초입니다. 첫 번째 알고리즘은 표준 벡터 양자화 (VQ) 기술을 기반으로합니다. 모든 언어는 자체 VQ 코드북 에 의해 으로 특징 지어집니다.
인식 알고리즘 첫 번째 알고리즘은 표준 벡터 양자화 (VQ) 기술을 기반으로합니다. 모든 언어 k
은 자체 VQ 코드북 으로 특징 지어집니다. 인식 단계에서 입력 음성은 에 의해 양자화되고 누적 된 양자화 왜곡 d_k가 계산됩니다. 최소 왜곡이 인식되는 언어. VQ 왜곡을 계산할 때 몇 가지 LPC 스펙트럼 왜곡 측정이 적용됩니다 ...이 경우 WLR 가중치 최소 비율 - 거리 : http://tinyurl.com/yc52gcl.
표준 VQ 알고리즘
: 코드북, alt text http://tinyurl.com/y8csx6e, 각 언어에 대한 교육 문장을 사용하여 생성된다. 음향 특성에 대응하는 임의의 간격이 될 수 alt text http://tinyurl.com/ybynjc2거리 d
을하며 코드북 생성에 사용되는 것과 동일해야 문장 에서 입력 벡터의 누적 거리로 정의된다. 각 언어의 특징은 VQ 코드북 입니다.
내 질문에 정확히 어떻게해야합니까? 영어로 50 문장의 세트가 있습니다. MATLAB에서 주어진 신호에 대해 WLR을 쉽게 계산할 수 있습니다. 그러나 영어의 경우 "코드북 생성"에 WLR을 사용해야하므로 코드북을 어떻게 작성해야합니까? 또한 주어진 입력 신호에 대해 크기 16 인 VQ 코드북 (최상의 크기로 발견 된)을 비교하는 방법에 대해서도 궁금합니다. 누군가가 나를 위해이 종이를 증류하는 것을 도울 수 있다면, 나는 그것을 크게 고맙게 생각할 것이다.
감사합니다.