2016-06-20 6 views
4

자바 응용 프로그램이 있습니다. 그리고 음성 인식 기능을 구현하고 싶습니다. 다만이 같은음성 인식 Api

:이 봐 "음성 인식". 그/그녀가 말할 때 사용자가 "

, 나는"이 "차"안녕 ","하나 "라고 일부 레코드를 가지고 가정 api는 레코드의 첫 번째 입력을 인식해야합니다. "hey", "one", "two", "tea"는 영어로 된 단어가 아닙니다.

나는 이미 음성 인식을 지원하거나 audiofingerprintin 알고리즘을 사용하는 일부 api를 찾았습니다. 그러나 나는 그들을 사용하고 싶지 않다.

왜 내가이 api를 사용하지 않는지 설명하겠습니다. 우선, 음성 인식 API는 단어를 이해하고 텍스트로 변환하려고 시도합니다. 그러나 이것은 api의 지원 언어에 국한됩니다. 음성 인식 API가 영어 언어를 지원하는 경우에도. 사용자의 나쁜 발음 때문에 나쁜 결과를 줄 수 있습니다. 따라서 응용 프로그램에 음성 인식 API를 사용하고 싶지 않습니다. 이 기능은 언어 기반이 아니어야하기 때문입니다.

게다가 음성 인식 api를 찾았을 때 "오디오 pringerprint"api를 발견했습니다. 나는 오픈 소스 인 "musicg"api를 사용했습니다. 그런 다음 테스트 응용 프로그램을 개발했습니다. 응용 프로그램은 unword 음성을 포함하는 4 개의 다른 오디오 파일을 녹음합니다. 그 후, 나는 그들 중 하나와 비슷한 목소리를 녹음했고, 테스트 API는 musicg api를 사용하여 이전 오디오 파일과 마지막 것을 비교했다. 그러나 그 결과는 또한 정말로 나쁩니다.

이전에 언급했듯이 오래된 전화처럼 음성 인식 기능이 필요합니다.

+0

나는 동일한 문제점을 가지고 있습니다. 아직도 대답을 찾고 있어요. 박수를 치기위한 레퍼런스? –

+0

@SagarNayak 당신은 musicg api를 사용하여 박수를 인식 할 수 있습니다. https://groups.google.com/forum/?fromgroups#!topic/musicg-api/oWRpUo3ZNXo – ziLk

+0

시도하고 업데이트하십시오. thanks @zilk –

답변

1

체크 KALDI http://kaldi-asr.org/ 또는이 tensorflow 튜토리얼 : 두 경우 모두 https://www.tensorflow.org/tutorials/audio_recognition

, 당신이 모델을 학습 할 수 있습니다, 그것은 언어를 기반으로 아니에요. 특정 음성이나 악센트 또는 특정 상황에 맞게 모델을 학습 할 수 있습니다.

https://github.com/cmusphinx/g2p-seq2seq 이 프로젝트는 언어 모델을 사용하지 않고 오디오를 음소로 변환합니다.