实时和声生成原理

很多人第一次听到“实时和声生成”，直觉是：这不就是把人声升高三度、再复制几轨吗？真这么简单，做出来的结果早就不至于一耳朵“塑料味”了。真正难的地方在于，系统必须在几十毫秒内同时完成音高检测、调式约束、声部决策、共振峰修正和时域平滑，还不能把原唱的咬字撕碎。延迟一高，歌手监听会乱；修正一狠，和声就像电子玩具。说白了，实时和声生成本质上是一场和时间赛跑的多目标优化。

实时和声生成到底在算什么

核心链路通常包括四步：

检测输入基频与音符边界
根据调式、和弦或MIDI确定目标和声音高
对原始信号做移调与音色补偿
给每个虚拟声部加入微小时差、颤音和声像差异

其中最关键的是基频检测。人声基频大致在 80Hz 到 1kHz，但泛音、气声、辅音会严重干扰判断。工程上常见做法是结合自相关、倒谱或 YIN 类算法，再配合短时傅里叶变换做稳态追踪。商业插件往往把分析窗控制在 10ms 到 20ms，一旦窗长过大，音高更稳，延迟却立刻上来，现场演出根本受不了。

为什么“和声正确”不等于“听起来像真人”

移调后的声音如果只改基频，不改共振峰，男声升高后会像氦气吸多了；如果共振峰修得过头，又会失去原唱的个性。所以实时系统通常要做独立音高与共振峰处理。这背后常见两条路线：

相位声码器：频域控制精细，但瞬态容易发虚
PSOLA 类方法：对人声自然度更友好，但在大跨度移调时更容易出接缝

优秀系统不会只追求“准”，还会故意制造一点不那么准的细节。比如把四个声部分别延后 12ms、18ms、27ms，声像左右错开，再给每个声部施加 5 到 15 cent 的细微偏移。正是这些瑕疵，骗过了耳朵。

调式约束才是和声生成的音乐脑

实时和声不是数学平移，它得知道“现在该唱什么音”。最基础的规则是按当前调式生成三度、五度、八度关系；再高一级，会读取和弦信息，把同样一个主旋律音在不同和弦下映射成不同和声音。C大调里，旋律音 E 遇到 C 和弦与 A 小和弦，和声选择就不该一样。

没有调式约束的自动和声，技术上能运行，音乐上常常翻车。

这也是为什么很多制作人宁可给插件喂 MIDI。因为MIDI不是“提示”，而是直接告诉系统：下一拍，请唱这个音。

延迟指标决定它能不能上台

录音环境里，30ms 左右的总延迟尚可接受；现场监听里，超过 10ms 到 12ms，歌手往往已经开始皱眉。实时和声生成的价值，不在“能生成”，而在低延迟下还能保住清晰度和稳定性。CPU负载、缓冲区大小、宿主采样率都会影响结果。44.1kHz 下跑得顺，不代表 96kHz 依旧从容，处理链一长，风味和风险一起上来。

一个常被忽略的事实

最自然的实时和声，往往不是“全自动”的那种，而是算法只做七成，编曲和混音补剩下三成。高声部切一点低频，低声部收一点齿音，中间声部略埋，副歌一推，那个“像三个人站在同一支麦前”的幻觉就出来了。机器负责快，人负责美，这个分工到现在还挺难被完全颠覆。

实时和声生成到底在算什么

为什么“和声正确”不等于“听起来像真人”

调式约束才是和声生成的音乐脑

延迟指标决定它能不能上台

一个常被忽略的事实

推荐话题

评论(9)

提示：请文明发言取消回复

实时和声生成到底在算什么

为什么“和声正确”不等于“听起来像真人”

调式约束才是和声生成的音乐脑

延迟指标决定它能不能上台

一个常被忽略的事实

推荐话题

评论(9)

提示：请文明发言 取消回复

提示：请文明发言取消回复