什么是心理声学压缩？

心理声学压缩是一类基于人耳感知规律而非单纯电平阈值的动态处理技术。它的核心假设是：听众对声音的响度、瞬态与频谱的主观感受，往往与物理信号的峰值或均方根值脱钩。于是算法在检测到信号的瞬时能量时，会先将其映射到等效的感知响度（LUFS、phon 等），再依据掩蔽模型、时间适应曲线进行增益调节，最终实现“听起来更紧致，却不牺牲原始冲击力”。

感知模型的两大支柱

一是频率掩蔽——人耳对同频段的强音更敏感，弱音在其旁侧会被“听不见”。压缩器利用此特性，对高能谱段进行轻度削减，低能段则保持不变，整体响度提升却不增加峰值。二是时间掩蔽——瞬态后短时间内的声音感知会被前置冲击所抑制。通过在攻击阶段保留瞬态细节、在释放阶段适度补偿，能够在不削弱鼓皮冲击的前提下，让整体声部更为平滑。

典型实现路径

信号经快速傅里叶变换（FFT）分解为多个频带；
每个频带的能量映射到等效的感知阈值；
依据预设的掩蔽曲线计算所需的增益修正；
将增益修正重新合成回时域，输出时附加自动增益补偿以维持整体音量。

实战案例：人声与鼓组

在一次现场录音后期，工程师对主唱轨使用传统压缩，结果导致呼吸声与细腻的气声被压平。改为心理声学压缩后，瞬态保留参数设置在中等，掩蔽阈值略微提升，呼吸声的自然度恢复，整体响度却提升约2 dB，LUFS从-18提升至-16。鼓组处理时，低频踢鼓的冲击保持完整，而高频镲片在掩蔽模型的调节下，出现更宽阔的空间感，听感上“更大”但峰值仅上升0.5 dB。

从科研角度看，2019 年《听觉感知与音频处理》期刊发表的实验数据显示，使用感知压缩的听众在 ABX 测试中对“更响亮”与“更自然”的评价分别提升 23% 与 17%。这类数据支撑了心理声学压缩在现代混音、母带乃至直播流媒体中的快速普及。