目录

语音合成

目录

语音合成#

梅尔频谱图生成器#

FastPitch#

一种非自回归的基于 Transformer 的频谱图生成器，可从 FastPitch: Parallel Text-to-Speech with Pitch Prediction 论文中预测持续时间和音高。FastPitch 是推荐的完全并行 TTS 模型，基于 FastSpeech，并以基频轮廓为条件。该模型在推理过程中预测音高轮廓，并生成可以通过预测轮廓进一步控制的语音。因此，FastPitch 可以改变说话者感知的情绪状态或强调某些词汇单位。

声码器#

HiFi-GAN#

来自 HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis 论文的基于 GAN 的声码器。HiFi-GAN 是推荐的模型架构，可实现高效且高保真的语音合成。