TTS(一)

文本前处理（Text Preprocessing）：文本会经过一个规范化过程，转化为适合模型输入的形式。这通常包括分词、处理缩写（如 "I'm" 转为 "I am"）、音标转换等。对于中文，通常包括分词和拼音标注。

声学模型（Acoustic Model）：通过声学模型将文本特征（如音素、韵律、重音、停顿等）转换为语音特征（如梅尔频谱图（Mel-spectrogram））。这种声学模型通常是一个深度神经网络（DNN）模型。

声码器（Vocoder）：声码器的任务是从梅尔频谱图等语音特征中恢复出原始的音频信号。流行的声码器有 WaveNet、WaveGlow、HiFi-GAN 等。声码器的目的是生成高质量的音频波形。