귀하의 접근 방식은 다음과 같은 이유로, 어떤 일반적으로 음악, 예를 들어 작동하지 않습니다 본질적으로
음악은 동적입니다. 음악에 존재하는 모든 사운드가 묵음, 어택, 서스테인, 쇠퇴 및 다시 침묵의 뚜렷한 기간에 의해 변조된다는 것을 의미합니다. 그렇지 않으면 사운드의 엔벨로프라고도합니다.
악기 음 및 인간의 음성 메모를 단일 음으로 올바르게 합성 할 수 없습니다. 이 음표는 근본적인 음색과 많은 하모닉스로 합성되어야합니다.
그러나 악기 음이나 화음의 기본 톤과 고조파를 합성하는 것만으로는 충분하지 않으며 위의 1에서 설명한 것처럼 음표의 인 벨롭을 합성해야합니다.
또한 악기 나 보컬과 같은 음악에서 멜로디 악절을 합성하려면 악절의 모든 음표에 대해 위의 항목 1-3을 합성해야하며 시작 부분과 관련된 모든 음표의 타이밍도 합성해야합니다 통과의.
마지막 믹스 레코딩에서 개별 악기 또는 사람의 목소리를 분석적으로 추출하는 것은 매우 어려운 문제이며이 방법으로는 문제가 해결되지 않으므로 해결 방법으로 문제 1-4를 올바르게 처리 할 수 없습니다. 한마디로
, 엄격한 분석 방법을 사용하여 음악 녹음의 최종 믹스에서 완벽에 가까운 음악 전사를 추출하려고하는 방법은, 최악의 경우 거의 확실히 실패 할 운명, 그리고 기껏에 빠진다 선진 연구의 영역.
이 난관에서 진행하는 방법은 작업의 목적이 무엇인지, OP에서 언급하지 않은 것이 무엇인지에 달려 있습니다.
이 작품은 상용 제품에서 사용 되나요 아니면 취미 프로젝트입니까?
상업적 작품의 경우 다양한 추가 접근법이 필요하지만 비용이 많이 드는 방법이나 비용이 많이 드는 방법이 있습니다. 그러나 이러한 접근 방식의 세부 사항은 작업의 목표에 따라 다릅니다. 닫는 노트로
, 당신의 합성으로 인해 다음과 무작위 경고음 같은 소리 :
귀하의 기본적인 톤 감지기는 효과에 근본적인 아마 가짜를 생성하여 롤링 FFT 프레임의 타이밍에 연결되어 톤은 각 롤링 FFT 프레임의 시작 시간에 표시됩니다.
왜 탐지 된 기본 톤이 가짜인지? 왜냐하면 당신은 뮤지컬 샘플을 임의로 (FFT) 프레임으로 클리핑하기 때문에, 어쨌든 중간 음표와 동시에 동시에 많은 음표를 잘라내어 음표의 스펙트럼 시그니처를 왜곡하기 때문입니다.
분석을 기반으로 봉투 정보를 얻을 수있는 방법이 없기 때문에 감지 된 메모의 봉투를 합성하려고하지 않고 있습니다.
그러므로 합성 된 결과는 롤링 FFT 프레임의 델타 t에 의해 시간적으로 간격을 둔 일련의 순수 사인 틱입니다. 각각의 짹짹은 서로 다른 엔벨로프 크기를 지닌 다른 주파수와 아마 모양이 직사각형 인 엔벌 로프 일 수 있습니다. ,
Musical instrument spectra to 102.4 KHz
이 Musical instrument note spectra and their time-domain envelopes
각 노트를 구성하는 많은 순수한 음색 특히 관찰 :
는 이러한 참조에서 살펴보고, 음표의 복잡한 성격을 보려면 그리고 각 음표의 시간 영역 엔벨로프의 복잡한 모양. 서로 다른 음표의 다양한 타이밍은 일반적인 음악에서 동시 발음 (다중 음색이 동시에 울리는)처럼 음악의 추가 필수적인 부분입니다.
이러한 음악 요소들은 모두 자율적 인 음악 녹음에 대한 엄격한 분석적 접근 방식을 만들기 위해 공모합니다.
"사운드의 중요한 부분을 찾고 소리를들을 수없는 부분을 무시하십시오"(FFT + 피크 감지로 모델링 한) 기본적인 프로세스가 MP3 인코딩의 기초라는 것을 알고 싶을 것입니다. 분명히 "중요한 부분"에 대한 아이디어는 훨씬 더 매력적입니다. –