人声合成技术的发展历程

话题来源: 圣典之光人声合成插件 Native Instruments Pharlight v1.0.0 经典合唱效果与现代数字技术融合,采样声乐素材库,空灵女高音\深沉男低音的多种音色

人声合成技术的演进,远非简单的“从机械到自然”线性叙事。它背后交织着信号处理理论的突破、计算能力的跃迁,以及人类对“声音人格”认知的不断深化。早期尝试甚至带着几分笨拙的诗意——1939年贝尔实验室的Voder,靠操作员手动控制共振峰滤波器,竟能勉强拼出可辨识的单词,但听起来更像外星人念电报。

共振峰模型与PSOLA:模拟声带的两种路径

20世纪70至80年代,两种主流技术路线分道扬镳。一种基于源-滤波器模型,将人声拆解为声带振动(激励源)与声道形状(滤波器),通过调整共振峰频率模拟不同元音。另一种则是PSOLA(Pitch Synchronous Overlap and Add),直接在时域上切割、拼接原始语音片段,在保持音色自然的同时实现基频与时长的独立调控。后者因对录音素材依赖度高,一度被视作“取巧”,却意外保留了更多细微的气声与摩擦噪声——这些“瑕疵”恰恰是听感真实的关键。

人声合成技术的发展历程

深度学习引爆质变

真正的拐点出现在2016年前后。WaveNet的横空出世证明,深度神经网络能直接从原始音频波形中学习复杂分布,生成的声音不仅流畅,还自带呼吸起伏与唇齿摩擦的细节。此后Tacotron 2、FastSpeech等端到端模型迅速迭代,训练数据从小时级跃升至万小时级多说话人语料库。有意思的是,当合成语音的MOS(平均意见得分)逼近4.5(满分5分)时,人们反而开始怀念早期合成器那种略带金属感的“电子嗓”——比如初代Siri或导航女声,它们因不完美而显得诚实。

“我们不再追求‘以假乱真’,而是探索人声作为乐器的可能性。”某音频引擎开发者坦言。如今像Pharlight这类工具,干脆放弃模仿真人说话,转而将人声切碎成粒子,重构为氛围铺底或节奏脉冲。这或许揭示了人声合成的新方向:从复刻人类,到解放声音本身的物质性。

评论(14)

提示:请文明发言

  • 干姜

    早期合成音反而有种科技感,挺酷的

    3 周前
    • 幸福三世 普通用户

      同感,那种电子音很特别

      3 周前
  • 黑化少年

    就是,那些”瑕疵”反而更有味道

    1 月前
  • 夜之瞳

    感觉这篇文章写得有点深,一般人可能看不进去

    1 月前
  • 啾啾虫

    好奇现在做有声书是不是都用AI了?

    1 月前
  • 一脸懵逼

    那还原成粒子之后还算人声吗?

    1 月前
加载更多

已全部加载完毕