2010-05-07 2 views
2

개별적인 화자와 피치 및 강도를 인식하는 대화 분석 소프트웨어를 작성할 계획입니다. 피치와 강도는 다소 직접적입니다 (자기 상관을 통한 피치).개별 음성 인식하기

개별 연사를 어떻게 인식합니까? 그 기능을 녹음 할 수 있습니까? 각 스피커의 주파수에 대한 몇 가지 휴리스틱 스를 저장하면 충분합니까? 한 번에 한 사람 만 말할 수 있다고 가정 할 수 있습니다 (엄밀히 겹치지 않음). 교육을 위해 각 연사는 실제 분석을하기 전에 1 분 분량의 데이터를 녹음 할 수 있다고 가정 할 수도 있습니다.

+1

+1 불가능한 문제 –

+0

강도를 어떻게 처리 할 예정입니까? 마이크는 항상 말하는 사람과 고정 된 거리에 있습니까? – mtrw

+0

나는이 주제에 대한 박사 논문이 있다고 확신하지만, 저자가 stackoverflow에서 활발하게 활동하는지 확신 할 수는 없다. – Justin

답변

2

피치와 강도는 아무 것도 알려주지 않습니다. 피치 으로 어떻게 변하는 지 분석해야합니다. 다른 스피커를 식별하려면 음성 오디오를 feature space으로 변환 한 다음이 기능 공간의 스피커 데이터베이스와 비교해야합니다. Google에 대한 일반적인 용어는 prosody입니다. http://en.wikipedia.org/wiki/Prosody_(linguistics). 인터넷 검색을하는 동안 speaker identification aka speaker recognition 등의 정보를 읽을 수도 있습니다. http://en.wikipedia.org/wiki/Speaker_identification

0

아직도 작업 중이라면 사운드 입력에 음성 인식을 사용하고 있습니까? 예를 들어 Microsoft SAPI는 음성 인식 웨이브를 파고 들어갈 수있는 풍부한 API를 응용 프로그램에 제공하기 때문에 스피커 인식 문제를 더 쉽게 처리 할 수 ​​있습니다. 나는 당신이 파형 내에서 음소 위치를 얻을 수 있다고 생각합니다. 그러면 스피커를 구별하는 기능을 생성하는 데 사용할 수있는 모음의 파워 스펙트럼 분석을 할 수 있습니다. (누군가가 피치와 음량에 대해 신경 쓰지 않기 전에, 포먼트 곡선은 성대 모양에서 나오고 음높이와 상당히 독립적이며 포드 코드의 상대적 위치와 상대 진폭은 상대적으로 (상대적으로!) 전체 음량에 관계없이 음소 길이는 문맥에 따라 유용 할 수 있습니다. 'n'소리 동안의 에너지 분포는 'nasality'기능을 제공 할 수 있습니다. 등등. 그냥 생각. 나는이 분야에서 직접 일하기를 기대한다.