누구나 샘플을보고 dnet을 교육하는 간단한 응용 프로그램을 설정 한 다음 특정 언어에 바인딩하지 않고 제한된 수의 음성 명령 만 인식하도록 사용 했습니까? 나는 Kaldi API가 꽤 강력하다고 믿지만 문서가 부족하다.언어에 바인딩하지 않고 Kaldi를 사용하여 심층 신경망으로 명령 감지
0
A
답변
0
1) 기존 DNN 모델을 사용하거나 직접 훈련하십시오. Kaldi의 Tedlium 실험을 사용할 수 있습니다. 자유롭게 실행할 수 있습니다. 모델이 영어 용인지 여부는 중요하지 않으며 다른 언어에서도 사용할 수 있습니다.
2) 두 개의 교육용 키프 레스에서 DNN 포스트를 추출합니다. 이를 위해 nnet3-am-compute 도구를 사용할 수 있습니다. DNN 모델을 사용하고 모든 프레임에 대해 음성 또는 주 posteriors를 반환합니다.
3) DNN posteriors를 비교하려면 DTW algorithm을 구현하십시오. 이 부분은 스스로해야하며 Kaldi에서는 구현되지 않습니다.
Query-By-Example Spoken Term Detection Using Phonetic Posteriorgram Templates
: 알고리즘을 설명관련 논문