사람들이 말하는이 오디오 파일에 일시 중지 및 다시 말하기가 포함되어 있습니다. 그들이 말하는 동안 그리고 그들이 말하는 동안, 배경에서 때때로 우는 아이들, 차가 부러지는 소리, 밖에서있을 때 들리는 것들이 있습니다.음성 탐지 알고리즘의 정확도 향상
내 목표는 말하고있을 때 그 부분을 유지하고 말하지 않을 때 그 부분을 자르는 것입니다. 배경 소음을 필터링 할 필요는 없습니다.
기본적으로 내 최종 목표는 내가 시도 이것이
Start in seconds, End in seconds
같은 컷 목록을 가지고있다?
- 나는 수동으로
- 내가 수동으로 소음은 함께 연설을 포함하지 않는 모든 부분을 맞춤으로써 파일을 생성 한 음성 만. 함께 연설을 포함하는 모든 부분을 맞춤으로써 파일 (십초) 생성 I는 고속 푸리에 변환을 적용하여, 그 주파수 + 진폭
- 변환되었다
- . (50초)는 I 각 100 밀리 오디오 파일을 걷고 FFT 스냅 샷을
- 전에서 (하나의 샷의 모든 값을 넣어 내 경우 512)를 목록에 입력하고 기계 학습 알고리즘 (numl) (첫 번째 경우에는 voice = true이고 두 번째 경우에는 voice = false)
- 그럼 기본 오디오 파일을 사용하지만 기본적으로 동일한 작업을하지만 이번에는 내 기계 학습 모델의 결과를 사용하여 그것은 스피치이든 아니든간에 그리고 그것을 실현하는 시간을 초 단위로 출력합니다.
내 문제는 잘못된 양성 및 거짓 음란성이 많다는 점입니다. 아무도 없을 때 음성을 인식하는 것처럼 보이고 그 반대도 마찬가지입니다.
이것은 아마도 심하게 훈련 된 모델 (의사 결정 트리를 사용합니다)의 이유입니까, 아니면 더 나은 결과를 얻기 위해 다른 조치를 취해야합니까?
를 사용하여 A PCA는 기본 스피커와 배경 잡음을 분리 로 시작하는 더 나은 데이터를 제공해야합니다. – greeness