2014-04-08 5 views
5

프로그래밍 방식으로 다른 사람의 음성 샘플을 가져 와서 합성 음성을 만드는 데 사용할 수있는 고유 한 음질/속성을 생성 할 수 있습니까?음성 합성 - 사용자 지정 음성 만들기

예를 들어, 사람 A는 자신을 기록합니다. 고유 한 톤이이 음성 샘플에서 생성되고 합성 음성으로 변환됩니다. 이를 통해 사람들은 텍스트 음성 변환 소프트웨어에서이 합성 음성을 사용하여 자신이 원하는 음성을 사람 A의 목소리로 쓸 수 있습니다.

오늘의 조건으로 가능합니까? 나는 이것을 전문적으로하는 회사가 있음을 알고 있지만, 일반적으로 소프트웨어로이를 수행 할 수 있습니까?

+0

http://en.wikipedia.org/wiki/Siri, http://en.wikipedia.org/wiki/Google_Now 등 ... – ElGavilan

+0

내가 정확히 무엇을 묻는 지 이해하면 "아니오 ". "완전한 음성"을 생성 할 수 없으므로 단일 "톤"에서 임의의 "단어"에 사용할 수있는 음성을 생성 할 수 있습니다. 일반적으로 적어도 diphones 또는 더 나은 triphones을 위해 _all_ 사운드에 대해 별도의 샘플이 필요합니다. 각 스피커별로 전체 사운드 카탈로그를 제공합니다. – arkascha

+0

확인해 주셔서 감사합니다. arkascha. 나는 모든 사람이 독특한 지문을 가지고있는 것처럼 여러 가지 목소리가 어떤 종류의 재산으로 구별 될 수 있다고 생각했습니다. 그리고 ElGavilan, Siri는 그렇게 일하지 않습니다. 그것은 실제 여성이 녹음 한 서술을 사용합니다. – Travier

답변

4

화자 적응 방법을 사용하면 훈련 샘플을 거의 만들지 않아도 몇 가지 결과를 얻을 수 있지만 여전히 수백 문장의 문장을 가져야합니다. 음성 학적 표기가 바람직합니다.

우리는 학생들이 자신의 목소리를 녹음하고 HTS (http://hts.sp.nitech.ac.jp/)를 사용하여 음성 모델을 훈련 할 수있는 작은 실습 연습을 한 번했습니다. HTS를 사용하는 "가장 간단한"접근 방법은이 페이지에서 "Speaker dependent training demo"를 다운로드하고 훈련 음성 샘플을 자신의 녹음 내용으로 대체하는 것입니다 (동일한 문장의!). 우리는 우리 자신의 패키지로 다른 언어로 이것을했습니다.

나는 MaryTTS (http://mary.dfki.de/)가이 프로세스를 돕기 위해 좀 더 편리한 도구를 가지고 있다고 생각하지만 나는 그 일을 해본 적이 없다.

그러나 여전히 고품질 음성의 경우 수천 개의 녹음 된 문장이 있어야합니다.