5

내가하고 싶은 일은 인간의 음성을 IPA (International Phonetic Alphabet) 형식으로 변환하는 API를 만드는 것입니다. 제 질문은 원본 오디오 파형 수준에서 음성을 디코딩하는 방법에 대한 리소스가 어디에 있는지입니다. 나는 API를 찾았지만, 내가 찾은 대부분은 곧바로 로마 알파벳으로 번역된다. 나는 음성 발음을 구별 할 수있는 능력을 좀 더 정확하게 만들기 위해 노력하고 있습니다.음성 입력을 해독하는 방법

답변

4

나는이 프로젝트가 생각보다 훨씬 어렵고 복잡하다는 말로 시작하고 싶습니다. 텍스트 처리에 대한 음성은 매우 크고 복잡한 분야이며 많은 연구가 이루어졌습니다. 대부분의 파서가 곧바로 로마 문자로 보내는 이유는 대부분의 처리가 막연한 소리와 다른 막연한 소리의 상황을 동시에 고려하여 어떤 단어가 함께 맞는지 추측하기 때문입니다. 당신은 IPA보다는 Soundex를 줄 뭔가를 찾을 가능성이 훨씬 큽니다. 즉, 이것은 여러 측면에서 접근 되어온 문제입니다. 최선의 방법은 아마 CMU의 Sphinx 프로젝트 일 것입니다. 당신에게 좋은 시작을 제공하지만 음성 처리를 텍스트로한다는 가정을 할 것입니다

http://cmusphinx.sourceforge.net/wiki/start 

은 실제로 그것보다 훨씬 더 개발하고, 함께 파형을 IPA로 연설을 번역하는 간단한 방법이 없다 어떤 종류의 정확도. 스핑크스는 매우 모듈 식이며 완전히 오픈 소스이기 때문에 엄청난 양의 힘을 손끝에서 얻을 수 있습니다. 그리고 그 시점에서이 작업을하는 방법을 결정할 수 있는지 여부는 여러분에게 달려 있지만 다시입니다. 이것은 어떤 식 으로든 해결 된 문제는 아닙니다.

+0

그럴 가치가있는 것 같습니다. 누구나 음성 <--> 텍스트에 사용 된 현재 방법에 대해 알려진 내용을 문서화 한 사람이 있습니까? – josiah

+0

거의 모든 cmu 스핑크스 아래 있습니다. 실험 및 수정에 대한 꽤 광범위한 로그를 가지고 있으므로 현재 가장 최신의 것으로 구현 된 것을 볼 수는 없지만 다음과 같은 기능을 찾기 위해 실행 한 실험을 볼 수도 있습니다. 최적의 성능. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –

+0

아주 매끄러운. 나는이 프로젝트를 고대하고있다. 감사! – josiah