重要

您正在查看 NeMo 2.0 文档。此版本引入了对 API 和新库 NeMo Run 的重大更改。我们目前正在移植 NeMo 1.0 中的所有功能到 2.0。有关以前版本或 2.0 中尚未提供的功能的文档,请参考 NeMo 24.07 文档

文本到语音 (TTS)#

文本到语音 (TTS) 合成是指将文本输入转换为自然人类语音的系统。合成的语音应听起来清晰且自然。随着深度神经网络的复兴,TTS 研究取得了巨大的进展。NeMo 实现侧重于最先进的神经 TTS,其中包括级联端到端(即将推出)系统,

  1. 级联 TTS 遵循三阶段流程。文本分析阶段通过在规范字典中查找或使用字素到音素 (G2P) 转换,将字素输入音译为音素;声学建模阶段从音素输入或字素和音素的混合生成声学特征。NeMo 选择梅尔频谱图来表示富有表现力的声学特征,因此我们将在上下文中交替使用术语梅尔频谱图生成器或声学模型;声码器阶段相应地从声学特征合成波形音频。

  2. 端到端 TTS 或者将上述三个阶段集成为一个模型,以便它可以直接从字素/音素输入合成音频,而无需任何中间过程。

我们将在以下部分详细说明。

资源和文档#

动手 TTS 教程笔记本可以在 TTS 教程文件夹下找到。如果您是 NeMo 的初学者,请考虑尝试 NeMo PrimerNeMo 模型 的教程。如果您也是 TTS 的初学者,请考虑尝试 NeMo TTS Primer 教程。这些教程可以在 Google Colab 上运行,方法是在 Colab 上指定笔记本 GitHub 页面的链接。

如果您正在寻找有关特定 TTS 模型的信息,或者想了解更多关于 nemo.collections.tts 目录中可用的模型架构,请参阅 模型 部分。

NeMo 包含用于几个常见 TTS 数据集的预处理脚本。“数据预处理”部分包含有关如何运行这些脚本的说明。您还可以按照指南创建自己的 NeMo 兼容数据集预处理脚本。

有关如何加载模型检查点(本地文件或来自 NGC 的预训练文件)的信息,以及 NGC 上可用的检查点列表,位于“检查点”部分。

有关特定于 NeMo TTS 模型的配置文件的文档,可以在“配置文件”部分找到。