说到 Ambisonics,很多人会被 A 格式和 B 格式的术语绕得头疼,但它本质上是一套用球谐函数来分解和重构空间声场的方法。1970 年代 Michael Gerzon 提出这套理论时,数字信号处理连像样的芯片都还没普及,可这套数学框架的优雅程度,居然支撑着今天所有主流 VR 和 360° 音频管线。
声音的球面坐标系
Ambisonics 的核心思想很简单:不记录“从哪个方向来”的声音,而是记录声音在空间中整个球面上的分布模式。用物理语言讲,就是在观察点处将声场展开成球谐函数的级数。零阶项(W 通道)对应全方向压强,像一个全向麦克风拾到的总和;一阶项(X、Y、Z)分别捕捉前后、左右、上下方向的压力梯度,等同于 3 个八字型指向的麦克风。

这四个信号放在一起,就是最常见的 一阶 Ambisonics(FOA):W、X、Y、Z。把它们按特定增益和极性叠加,就能通过矩阵运算“虚拟”出指向任意方向的麦克风信号,包括心形、超心形之类。
为什么 A 格式总要转 B 格式
实际录音时,直接用正交的八字型麦克风搭建 FOA 阵列太麻烦,所以工程师常用四面体排列的四支心形咪头——这就是 A 格式的物理来源。A 格式的四个信号(通常叫 FLU、FRD、BLD、BRU)相互之间有很强的空间相关性,却没法直接拿来做数学旋转或解码。
转换方程比想象中简单。以 Sennheiser AMBEO VR Mic 为例,其官方滤波器不只做加减法,还嵌入了频率相关的相位校准和指向性均衡,弥补四面体不完全共点带来的高频误差。很多人忽略的是:如果随意写个 A-to-B 矩阵,俯仰角信息在低频还好,到了 8 kHz 以上定位精度会急剧劣化,整场声音的“高度感”最先垮掉。
分量与阶数的代价
一阶 Ambisonics 只有 4 个通道,空间分辨率很有限,尤其甜蜜点狭窄。二阶需要 9 个通道,三阶直接跳到 16 个通道。每次升级,球谐函数的基函数变得更复杂,能编码的空间细节也越多,但通道数的平方增长让存储和传输压力陡增。实践中,三阶(3rd Order)往往是流媒体和实时渲染的性价比天花板,再往上就要用 Higher-Order Ambisonics(HOA),搭配元数据导向的对象音频来补救了。
解码听什么
想把 Ambisonics 用耳机听,必须经过双耳解码。这个过程会拿一组 HRTF 将各球谐分量卷积到左右耳。dearVR Ambi Micro 里提供的 Neumann KU100 和自家 dearVR HRTF 算法差别其实很微妙——前者听感偏向录音棚控制室里的监听感,后者刻意增强了后方定位,室内外场景切换时,这种差异会突然放大。
对 Ambisonics 格式的真正把握,最后往往落在对这些微小校准上的执着。毕竟,声场可以算得严丝合缝,但耳朵从来不听公式。

评论(14)
这类格式名真的劝退,新手看到 A、B、HOA 直接懵
dearVR 后方增强会不会导致有些素材听着太假?
自己写 A-to-B 矩阵有点吓人,高频校准漏了基本白录
甜蜜点窄这个太真实,头稍微一动空间感就散
说实话球谐函数一出来脑子就开始下线了🤔
小白问下,FOA 的 WXYZ 顺序不同软件会不会坑死人?
已全部加载完毕