音频转MIDI技术原理与算法优化-KBID精嗓子音频

音频转MIDI的核心挑战在于把连续的声波信号抽象为离散的音符信息，这一步骤往往被称作音高与时值的“逆向建模”。在实际实现中，系统先对原始波形做短时傅里叶变换（STFT）或常数 Q 变换（CQT），得到频谱图；随后通过峰值追踪与谐波模型匹配，估算每个时帧的基频（F0）和其对应的倍频结构。若只处理单音轨，以上流程已经足够；但面对吉他和钢琴等复音乐器，必须在频谱中分离出多条谐波列，这正是多音轨分离技术的入口。

多音轨分离技术的关键点

常见的做法是先做谱图的非负矩阵分解（NMF），把混合信号拆解为若干基谱和激活函数；每个基谱对应一种潜在的音高序列。近年来，卷积神经网络（CNN）与自注意力（Transformer）模型被引入，能够在时频域捕捉更细致的局部相关性。例如，某开源项目在公开数据集上实现了 92% 的音符召回率，远超传统 NMF 的 78%。值得注意的是，分离过程并非一次性完成，而是采用迭代优化：先粗略定位音高轮廓，再在局部窗口内细化振幅与起止点，最终得到每条声部的完整 MIDI 轨。