人声合成技术的发展历程

人声合成技术的演进，远非简单的“从机械到自然”线性叙事。它背后交织着信号处理理论的突破、计算能力的跃迁，以及人类对“声音人格”认知的不断深化。早期尝试甚至带着几分笨拙的诗意——1939年贝尔实验室的Voder，靠操作员手动控制共振峰滤波器，竟能勉强拼出可辨识的单词，但听起来更像外星人念电报。

共振峰模型与PSOLA：模拟声带的两种路径

20世纪70至80年代，两种主流技术路线分道扬镳。一种基于源-滤波器模型，将人声拆解为声带振动（激励源）与声道形状（滤波器），通过调整共振峰频率模拟不同元音。另一种则是PSOLA（Pitch Synchronous Overlap and Add），直接在时域上切割、拼接原始语音片段，在保持音色自然的同时实现基频与时长的独立调控。后者因对录音素材依赖度高，一度被视作“取巧”，却意外保留了更多细微的气声与摩擦噪声——这些“瑕疵”恰恰是听感真实的关键。

深度学习引爆质变

真正的拐点出现在2016年前后。WaveNet的横空出世证明，深度神经网络能直接从原始音频波形中学习复杂分布，生成的声音不仅流畅，还自带呼吸起伏与唇齿摩擦的细节。此后Tacotron 2、FastSpeech等端到端模型迅速迭代，训练数据从小时级跃升至万小时级多说话人语料库。有意思的是，当合成语音的MOS（平均意见得分）逼近4.5（满分5分）时，人们反而开始怀念早期合成器那种略带金属感的“电子嗓”——比如初代Siri或导航女声，它们因不完美而显得诚实。