在后期制作里,把一整首混音直接抽出人声、鼓组或贝斯,早已不再是只能靠手工频率滤波的老办法。Unmix 功能把这件事交给了经过大规模音频数据训练的神经网络,让“听得见的乐器”在频谱图上各自披上独立的颜色层。
核心技术概览
系统首先把时域信号转为短时傅里叶变换(STFT)得到二维频谱;随后基于卷积‑注意力混合架构的分离模型,对每一个频点预测多路掩码(mask),相当于在光谱上为每种声源贴上一层透明胶片。掩码乘回原始复数谱后,再经逆 STFT 还原出时域的独立轨道,整个过程在 GPU 上可以实时完成。

从混音到分轨的工作流
- 导入完整的立体声或多声道混音文件。
- 系统自动检测音频结构,标记常见乐器类别(人声、鼓、贝斯、键盘等)。
- 基于检测结果生成对应的掩码并同步处理相位信息。
- 输出每个声部的独立 WAV/AIFF 文件,支持后续 DAW 直接拖入。
实战案例:流行歌曲的四轨拆解
一位制作人在处理 2022 年的热门单曲时,原本需要花费两天时间手动划分人声与伴奏。使用 Unmix,只需把母带拖入界面,系统在约 45 秒内给出人声、鼓、贝斯、键盘四条干净的分轨。对比手工提取的频谱残留,AI 版的鼓轨在低频噪声上下降了约 12 dB,混音师直接把它们重新编排进新项目,省下的时间足够去调音色。
局限与未来趋势
目前的模型对强混响或极度压缩的素材仍会出现交叉泄漏,尤其是低音与人声在同一区间共振时。研发团队正尝试引入时空卷积与自监督学习,让网络在捕捉瞬态细节的同时保持相位一致性。若这些技术成熟,真正的“一键分轨”或将不再是营销口号,而是每个音频工作站的标配。

评论(4)
路过吃瓜,现在的技术都这么卷了吗😂
低音和人声撞一起还是会有杂音吧?这点没解决。
以前手动切频累死,现在直接拖进去等结果,爽!
这AI分离效果真有这么神?45秒搞定两天活?🤔