2016-07-11 3 views
0

여러 명이 말하는 경우 실시간으로 감지하는 방법이 있습니까? 이를 위해 음성 인식 API가 필요합니까?음성 인식없이 여러 목소리 검색

나는 오디오를 분리하고 싶지 않고 그것을 필사적으로 쓰고 싶지 않습니다. 내 접근 방식은 하나의 마이크 (-> 모노)를 사용하여 자주 녹음 한 다음 해당 녹음을 분석하는 것입니다. 그런데 어떻게 내가 목소리를 구별 할 수 있겠는가? 관련 주파수 만보고 범위를 좁히 겠지만 ...

나는 이것이 사소한 일이 아니라는 것을 알고있다. 그래서 모바일 앱/웹에 친숙한 API를 상자에서 꺼내서 사용할 수있는 API가 있기를 바랍니다.

이제 크리스마스 쇼핑 목록처럼 들리 겠지만 언급 한대로 콘텐츠에 대해 알 필요가 없습니다. 그래서 내 생각에 완전한 음성 인식은 성능에 큰 타격이 될 것입니다.

답변

1

비슷한 문제 (성인/어린이 분류기, 음성/음악 분류기, 단일 음성/음성 혼합 분류기)의 대부분은 표준 기계 학습 문제입니다. GMM과 같은 분류 자로 해결할 수 있습니다. 당신은 지금, 당신의 작업에 대한 훈련 데이터를 구성해야합니다

  1. 깨끗한 녹음의 일부 금액을 가지고, 당신은 오디오 북 다운로드 할 수 있습니다
  2. 모두
  3. 깨끗한 녹음에게
  4. 기차 GMM 분류를 혼합하여 혼합 데이터를 준비
  5. 클린 스피치 GMM과 혼합 스피치 GMM의 확률을 비교하고 두 개의 분류 자로부터 확률 비율로 혼합의 존재를 결정하십시오.

당신은 여기에 몇 가지 코드 샘플을 찾을 수 있습니다

https://github.com/littleowen/Conceptor

예를 들어 당신이

https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb

+0

감사를 시도 할 수 있습니다, 이것은 매우 좋아 보인다. 나는 그 뒤에있는 생각을 이해하고 그것을 실행하려고 노력할 것입니다. 이상적으로 프로그램을 시작할 때 현재 음성에 train GMM 분류기가 필요합니다. 아직 파이썬을 사용하지는 않았지만 시도해 보겠습니다. –