文本前处理(Text Preprocessing):文本会经过一个规范化过程,转化为适合模型输入的形式。这通常包括分词、处理缩写(如 "I'm" 转为 "I am")、音标转换等。对于中文,通常包括分词和拼音标注。

声学模型(Acoustic Model):通过声学模型将文本特征(如音素、韵律、重音、停顿等)转换为语音特征(如梅尔频谱图(Mel-spectrogram))。这种声学模型通常是一个深度神经网络(DNN)模型。

声码器(Vocoder):声码器的任务是从梅尔频谱图等语音特征中恢复出原始的音频信号。流行的声码器有 WaveNet、WaveGlow、HiFi-GAN 等。声码器的目的是生成高质量的音频波形。