人声合成技术的演进,远非简单的“从机械到自然”线性叙事。它背后交织着信号处理理论的突破、计算能力的跃迁,以及人类对“声音人格”认知的不断深化。早期尝试甚至带着几分笨拙的诗意——1939年贝尔实验室的Voder,靠操作员手动控制共振峰滤波器,竟能勉强拼出可辨识的单词,但听起来更像外星人念电报。
共振峰模型与PSOLA:模拟声带的两种路径
20世纪70至80年代,两种主流技术路线分道扬镳。一种基于源-滤波器模型,将人声拆解为声带振动(激励源)与声道形状(滤波器),通过调整共振峰频率模拟不同元音。另一种则是PSOLA(Pitch Synchronous Overlap and Add),直接在时域上切割、拼接原始语音片段,在保持音色自然的同时实现基频与时长的独立调控。后者因对录音素材依赖度高,一度被视作“取巧”,却意外保留了更多细微的气声与摩擦噪声——这些“瑕疵”恰恰是听感真实的关键。

深度学习引爆质变
真正的拐点出现在2016年前后。WaveNet的横空出世证明,深度神经网络能直接从原始音频波形中学习复杂分布,生成的声音不仅流畅,还自带呼吸起伏与唇齿摩擦的细节。此后Tacotron 2、FastSpeech等端到端模型迅速迭代,训练数据从小时级跃升至万小时级多说话人语料库。有意思的是,当合成语音的MOS(平均意见得分)逼近4.5(满分5分)时,人们反而开始怀念早期合成器那种略带金属感的“电子嗓”——比如初代Siri或导航女声,它们因不完美而显得诚实。
“我们不再追求‘以假乱真’,而是探索人声作为乐器的可能性。”某音频引擎开发者坦言。如今像Pharlight这类工具,干脆放弃模仿真人说话,转而将人声切碎成粒子,重构为氛围铺底或节奏脉冲。这或许揭示了人声合成的新方向:从复刻人类,到解放声音本身的物质性。

评论(14)
早期合成音反而有种科技感,挺酷的
同感,那种电子音很特别
就是,那些”瑕疵”反而更有味道
感觉这篇文章写得有点深,一般人可能看不进去
好奇现在做有声书是不是都用AI了?
那还原成粒子之后还算人声吗?
已全部加载完毕