音频降噪模块原理

一段看似“干净”的人声录音，放大到频谱图里往往并不安静：50Hz 或 60Hz 的电源嗡声像几条横线趴在低频区，空调噪声铺成一层灰雾，键盘敲击则是短促的竖向亮斑。音频降噪模块的核心工作，并不是粗暴地把声音变小，而是在时间、频率和能量三个维度里判断：哪些成分更像噪声，哪些成分必须保留。

数字音频进入降噪模块后，通常会被切成很短的片段，例如 20ms 到 40ms 一帧。模块再通过短时傅里叶变换，把每一帧从“波形”拆成频谱。说白了，它不再只看声音有多大，而是看每个频率点在某一瞬间的能量分布。

典型噪声有自己的指纹：

这也是为什么专业降噪软件喜欢使用频谱视图。耳朵会被响度骗过去，频谱图却很诚实。

传统降噪模块常用“噪声轮廓”机制。用户选取一段没有人声、只有环境底噪的片段，算法计算其中各频段的平均能量，建立噪声模型。后续处理时，只要某些频率成分接近这个模型，就会被按比例衰减。

这里最关键的是衰减比例。如果降得太轻，底噪还在；如果降得太狠，人声里的气息、齿音、空间感会一起被削掉，产生水声、金属声一类伪影。很多录音师宁愿保留一点轻微底噪，也不愿把主持人的声音处理得像从塑料管里传出来。

频谱减法是经典方案：估计噪声频谱，再从混合信号中减去。它计算简单，适合实时通话、会议系统、便携录音设备。不过现实里的噪声并不总是稳定的，街边采访时一辆电动车经过，噪声模型瞬间就失效。

更灵活的做法是动态门限。模块会根据不同频段的信噪比决定保留或衰减。例如人声主要集中在 100Hz 到 4kHz，辅音信息可延伸到 8kHz 以上；算法会对这些区域更谨慎，而对低频轰鸣或高频嘶声下手更重。

好的降噪不是“消灭一切杂音”，而是让目标声音在听感上重新站到前景。

近年的神经网络降噪不再只依赖固定噪声模型，而是通过大量语音、音乐、环境声样本学习“人声应有的结构”。它可以推断某个频谱块属于语音还是噪声，再生成一个掩膜，对不同区域进行保留、压低或重建。

这类方法在视频会议里很常见。敲键盘、关门声、纸张摩擦声，以前很难靠传统频谱减法处理干净，现在模型能根据声音纹理识别它们。但它也有代价：当模型判断失误，人声尾音可能被吞掉，笑声可能被当成噪声切掉。算法太勤快，有时也挺烦人。

常见降噪参数其实都对应明确的工程取舍：

一段室内播客，如果底噪约为 -55dBFS，人声峰值在 -12dBFS，适度降噪 8dB 到 12dB 往往已经够用。硬拉到 20dB，听众未必感谢，反倒会听见算法留下的“水波纹”。音频降噪模块的本事，真正藏在这点克制里。

评论(3)