语音合成#

梅尔频谱图生成器#

FastPitch#

Recommended

一种非自回归的基于 Transformer 的频谱图生成器,可从 FastPitch: Parallel Text-to-Speech with Pitch Prediction 论文中预测持续时间和音高。FastPitch 是推荐的完全并行 TTS 模型,基于 FastSpeech,并以基频轮廓为条件。该模型在推理过程中预测音高轮廓,并生成可以通过预测轮廓进一步控制的语音。因此,FastPitch 可以改变说话者感知的 情绪状态或强调某些词汇单位。

声码器#

HiFi-GAN#

Recommended

来自 HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis 论文的基于 GAN 的声码器。HiFi-GAN 是推荐的模型架构,可实现高效且高保真的语音合成。