개별적인 화자와 피치 및 강도를 인식하는 대화 분석 소프트웨어를 작성할 계획입니다. 피치와 강도는 다소 직접적입니다 (자기 상관을 통한 피치).개별 음성 인식하기
개별 연사를 어떻게 인식합니까? 그 기능을 녹음 할 수 있습니까? 각 스피커의 주파수에 대한 몇 가지 휴리스틱 스를 저장하면 충분합니까? 한 번에 한 사람 만 말할 수 있다고 가정 할 수 있습니다 (엄밀히 겹치지 않음). 교육을 위해 각 연사는 실제 분석을하기 전에 1 분 분량의 데이터를 녹음 할 수 있다고 가정 할 수도 있습니다.
+1 불가능한 문제 –
강도를 어떻게 처리 할 예정입니까? 마이크는 항상 말하는 사람과 고정 된 거리에 있습니까? – mtrw
나는이 주제에 대한 박사 논문이 있다고 확신하지만, 저자가 stackoverflow에서 활발하게 활동하는지 확신 할 수는 없다. – Justin