음성 처리의 벡터 양자화 설명 설명

this research paper에서 표준 벡터 양자화 알고리즘을 재현하여 훈련 데이터 세트를 기반으로 식별되지 않은 음성 입력의 언어를 정확하게 결정할 수 없습니다.음성 처리의 벡터 양자화 설명 설명

추상 정보 언어 인식 (예를 들어, 일본어, 영어, 독일어 등) 음향 기능을 사용하여 현재 음성 기술에 대한 중요한 아직 어려운 문제입니다 : 여기에 몇 가지 기본 정보입니다. ...이 신문에 사용 된 음성 데이터베이스는 20 개의 언어를 포함합니다 : 16 4 명의 남성과 4 명의 여성이 두 번 문장을 발급했습니다. 각 문장의 지속 시간은 약 8 초입니다. 첫 번째 알고리즘은 표준 벡터 양자화 (VQ) 기술을 기반으로합니다. 모든 언어는 자체 VQ 코드북 에 의해 으로 특징 지어집니다.

인식 알고리즘 첫 번째 알고리즘은 표준 벡터 양자화 (VQ) 기술을 기반으로합니다. 모든 언어 k은 자체 VQ 코드북 $alt text$ 으로 특징 지어집니다. 인식 단계에서 입력 음성은 $alt text$ 에 의해 양자화되고 누적 된 양자화 왜곡 d_k가 계산됩니다. 최소 왜곡이 인식되는 언어. VQ 왜곡을 계산할 때 몇 가지 LPC 스펙트럼 왜곡 측정이 적용됩니다 ...이 경우 WLR 가중치 최소 비율 - 거리 : http://tinyurl.com/yc52gcl.

표준 VQ 알고리즘

: 코드북, alt text http://tinyurl.com/y8csx6e, 각 언어에 대한 교육 문장을 사용하여 생성된다. 음향 특성에 대응하는 임의의 간격이 될 수 alt text http://tinyurl.com/ybynjc2

거리 d을하며 코드북 생성에 사용되는 것과 동일해야 문장 $alt text$ 에서 입력 벡터의 누적 거리로 정의된다. 각 언어의 특징은 VQ 코드북 $alt text$ 입니다.

내 질문에 정확히 어떻게해야합니까? 영어로 50 문장의 세트가 있습니다. MATLAB에서 주어진 신호에 대해 WLR을 쉽게 계산할 수 있습니다. 그러나 영어의 경우 "코드북 생성"에 WLR을 사용해야하므로 코드북을 어떻게 작성해야합니까? 또한 주어진 입력 신호에 대해 크기 16 인 VQ 코드북 (최상의 크기로 발견 된)을 비교하는 방법에 대해서도 궁금합니다. 누군가가 나를 위해이 종이를 증류하는 것을 도울 수 있다면, 나는 그것을 크게 고맙게 생각할 것이다.

감사합니다.

출처

2010-02-16 ash

두 번째 질문 (주어진 신호에 대한 코드북 비교)은 더 쉽습니다. 각 코드북 항목 V_k_j에 대해 입력 신호로 거리 d를 계산해야합니다. 가장 작은 거리 'd'를 갖는 'j'는 가장 적합한 코드북 엔트리에 대응할 것이다. 거리 함수로서 WLR을 사용할 수 있습니다

건물 코드북 (trainig)은 좀 더 복잡합니다. 문장을 길이 N (16) 인 벡터로 나누고 k- 평균과 같은 클러스터링 알고리즘을 사용하여 벡터를 클러스터해야합니다. 그런 다음 모든 클러스터에서 평균을 찾습니다. 이것은 코드북 항목을 의미합니다. 마음에 오는 일입니다.

다른 알고리즘 (나는 더 좋을 것이라고 생각합니다)은 here입니다. 또한 간단한 두 가지 학습 알고리즘이 Wikipedia

출처

2010-02-16 09:10:48 werewindle

음성 처리의 벡터 양자화 설명 설명

답변

관련 문제