음표의 음조 탐지에 ANN을 사용하려고합니다. 네트워크는 단순한 2 계층 MLP로 입력은 기본적으로 DFT (평균 및 대수 분포)이며 12 개의 출력은 특정 옥타브의 12 노트에 해당합니다.신경망을 이용한 음조 탐지
네트워크는 일부 악기 (한 번에 한 음)로 연주되는 12 개의 음표 중 몇 가지 샘플과 "침묵"의 몇 가지 샘플로 학습됩니다.
결과가 실제로 좋습니다. 네트워크는 다른 악기로 연주 된 음을 정확하게 정확하게 감지 할 수 있으며, 소음에 비교적 잘 맞으며, 노래를 연주 할 때 완전히 건강 해지지도 않습니다.
그러나 목표는 다성 음악을 탐지 할 수있게하는 것입니다. 두 개 이상의 음을 함께 연주하면 두 개의 해당 뉴런이 작동합니다. 놀랄만 한 점은 네트워크가 실제로 이미 모노 포닉 음보다 일관되고 덜 정확하지만 어느 정도 (모노 포닉 샘플에 대해서만 교육을 받음)하는 것입니다. 제 질문은 어떻게 폴리 픽스 (polyphnic) 사운드를 인식 할 수있는 능력을 향상시킬 수 있습니까?
문제는 내가 실제로 왜 실제로 작동하는지 이해하지 못한다는 것입니다. 다른 노트 (또는 그들의 DFTs)는 네트워크가 훈련 된 공간에서 기본적으로 다른 포인트입니다. 그래서 내가 비슷한 소리 (근사치)를 인식하는 이유를 봅니다. 그러나 그것은 각 훈련 예제와 먼 지점을 형성하는 음표의 조합에 대한 출력을 "결론 짓는"방법이 아닙니다. (0,0) (0,1) (1,0) = (0)에 대해 훈련 된 것과 같은 방식으로 (1,1) = (1)이라고 결론 지을 것으로 예상되지는 않습니다.
위력을 발휘하는 것은 가능한 한 많은 폴리 포닉 샘플로 네트워크를 학습하는 것입니다. 그러나 네트워크가 어떻게 Monophonic 샘플에서 아이디어를 막연하게 파악하고있는 것처럼 보이기 때문에 아마 여기에 더 많은 기금이 필요합니다.
모든 포인터? (길이에 대한 미안, btw :).
매우 신뢰할 – finnw