一段看似“干净”的人声录音,放大到频谱图里往往并不安静:50Hz 或 60Hz 的电源嗡声像几条横线趴在低频区,空调噪声铺成一层灰雾,键盘敲击则是短促的竖向亮斑。音频降噪模块的核心工作,并不是粗暴地把声音变小,而是在时间、频率和能量三个维度里判断:哪些成分更像噪声,哪些成分必须保留。
降噪模块到底在“听”什么?
数字音频进入降噪模块后,通常会被切成很短的片段,例如 20ms 到 40ms 一帧。模块再通过短时傅里叶变换,把每一帧从“波形”拆成频谱。说白了,它不再只看声音有多大,而是看每个频率点在某一瞬间的能量分布。

典型噪声有自己的指纹:
- 电流声:常见于 50Hz、60Hz 及其倍频,频谱上呈稳定横线。
- 风扇声、空调声:能量连续,主要分布在低频和中低频。
- 嘶声:多集中在高频区域,听起来像“沙沙”的白噪。
- 鼠标点击、爆音:持续时间短,频谱形态突兀。
这也是为什么专业降噪软件喜欢使用频谱视图。耳朵会被响度骗过去,频谱图却很诚实。
噪声轮廓:给算法一张“嫌疑人照片”
传统降噪模块常用“噪声轮廓”机制。用户选取一段没有人声、只有环境底噪的片段,算法计算其中各频段的平均能量,建立噪声模型。后续处理时,只要某些频率成分接近这个模型,就会被按比例衰减。
这里最关键的是衰减比例。如果降得太轻,底噪还在;如果降得太狠,人声里的气息、齿音、空间感会一起被削掉,产生水声、金属声一类伪影。很多录音师宁愿保留一点轻微底噪,也不愿把主持人的声音处理得像从塑料管里传出来。
频谱减法与动态门限
频谱减法是经典方案:估计噪声频谱,再从混合信号中减去。它计算简单,适合实时通话、会议系统、便携录音设备。不过现实里的噪声并不总是稳定的,街边采访时一辆电动车经过,噪声模型瞬间就失效。
更灵活的做法是动态门限。模块会根据不同频段的信噪比决定保留或衰减。例如人声主要集中在 100Hz 到 4kHz,辅音信息可延伸到 8kHz 以上;算法会对这些区域更谨慎,而对低频轰鸣或高频嘶声下手更重。
好的降噪不是“消灭一切杂音”,而是让目标声音在听感上重新站到前景。
AI 降噪为什么更像“分离”?
近年的神经网络降噪不再只依赖固定噪声模型,而是通过大量语音、音乐、环境声样本学习“人声应有的结构”。它可以推断某个频谱块属于语音还是噪声,再生成一个掩膜,对不同区域进行保留、压低或重建。
这类方法在视频会议里很常见。敲键盘、关门声、纸张摩擦声,以前很难靠传统频谱减法处理干净,现在模型能根据声音纹理识别它们。但它也有代价:当模型判断失误,人声尾音可能被吞掉,笑声可能被当成噪声切掉。算法太勤快,有时也挺烦人。
参数背后的取舍
常见降噪参数其实都对应明确的工程取舍:
- Reduction:降噪幅度,常见范围为 6dB 到 24dB。
- Threshold:触发门限,决定哪些成分会被处理。
- Attack/Release:响应速度,影响噪声被压下和恢复的自然程度。
- Smoothing:频谱平滑,减少颗粒感,但可能抹掉细节。
一段室内播客,如果底噪约为 -55dBFS,人声峰值在 -12dBFS,适度降噪 8dB 到 12dB 往往已经够用。硬拉到 20dB,听众未必感谢,反倒会听见算法留下的“水波纹”。音频降噪模块的本事,真正藏在这点克制里。

评论(3)
键盘声被切掉这个我深有体会,开会一边记笔记一边说话,尾音经常也跟着没了。
原来 20ms 一帧这么短,难怪实时通话也能处理。
水声那个形容太准了,降狠了真就一耳朵假。