人声合成技术的发展历程

人声合成技术的演进，远非简单的“从机械到自然”线性叙事。它背后交织着信号处理理论的突破、计算能力的跃迁，以及人类对“声音人格”认知的不断深化。早期尝试甚至带着几分笨拙的诗意——1939年贝尔实验室的Voder，靠操作员手动控制共振峰滤波器，竟能勉强拼出可辨识的单词，但听起来更像外星人念电报。

共振峰模型与PSOLA：模拟声带的两种路径

20世纪70至80年代，两种主流技术路线分道扬镳。一种基于源-滤波器模型，将人声拆解为声带振动（激励源）与声道形状（滤波器），通过调整共振峰频率模拟不同元音。另一种则是PSOLA（Pitch Synchronous Overlap and Add），直接在时域上切割、拼接原始语音片段，在保持音色自然的同时实现基频与时长的独立调控。后者因对录音素材依赖度高，一度被视作“取巧”，却意外保留了更多细微的气声与摩擦噪声——这些“瑕疵”恰恰是听感真实的关键。

深度学习引爆质变

真正的拐点出现在2016年前后。WaveNet的横空出世证明，深度神经网络能直接从原始音频波形中学习复杂分布，生成的声音不仅流畅，还自带呼吸起伏与唇齿摩擦的细节。此后Tacotron 2、FastSpeech等端到端模型迅速迭代，训练数据从小时级跃升至万小时级多说话人语料库。有意思的是，当合成语音的MOS（平均意见得分）逼近4.5（满分5分）时，人们反而开始怀念早期合成器那种略带金属感的“电子嗓”——比如初代Siri或导航女声，它们因不完美而显得诚实。

“我们不再追求‘以假乱真’，而是探索人声作为乐器的可能性。”某音频引擎开发者坦言。如今像Pharlight这类工具，干脆放弃模仿真人说话，转而将人声切碎成粒子，重构为氛围铺底或节奏脉冲。这或许揭示了人声合成的新方向：从复刻人类，到解放声音本身的物质性。

干姜

早期合成音反而有种科技感，挺酷的

3 周前

幸福三世普通用户

同感，那种电子音很特别

3 周前登录以回复

黑化少年

就是，那些”瑕疵”反而更有味道

1 月前

夜之瞳

感觉这篇文章写得有点深，一般人可能看不进去

1 月前

啾啾虫

好奇现在做有声书是不是都用AI了？

1 月前

一脸懵逼

那还原成粒子之后还算人声吗？

1 月前

« 上一页 1 2

加载更多

已全部加载完毕

人声合成技术的发展历程

共振峰模型与PSOLA：模拟声带的两种路径

深度学习引爆质变

推荐话题

评论(14)

提示：请文明发言取消回复

共振峰模型与PSOLA：模拟声带的两种路径

深度学习引爆质变

推荐话题

评论(14)

提示：请文明发言 取消回复

提示：请文明发言取消回复