TTS 概述#

为 Riva TTS 服务实现的文本到语音 (TTS) 管道基于两阶段管道。Riva 首先使用第一个模型生成梅尔频谱图，然后使用第二个模型生成语音。此管道形成一个 TTS 系统，使您能够从原始文本记录合成自然 звучащий 语音，而无需任何其他信息，例如语音的模式或节奏。

Riva TTS 支持流式和批量推理模式。在批量模式下，音频在生成请求文本的完整音频序列后才会返回，并且可以实现更高的吞吐量。在发出流式请求时，音频块会在生成后立即返回，从而显着减少大型请求的延迟（以首次音频时间衡量）。

试用#

在我们的演示平台上体验 Riva TTS： https://build.nvidia.com/explore/speech

预训练 TTS 模型#

用于在快速入门脚本中生成 RMIR 的 .riva 模型可以在以下 NGC 位置找到。下表还列出了受支持的语音名称和使用这些模型生成的示例。

语言	模型	数据集	G2P	性别	语音	语音示例
英语 (en-US)	FastPitch HiFi-GAN	美式英语	IPA	多说话人	`English-US.Female-1` `English-US.Male-1` `English-US.Female-Calm` `English-US.Female-Neutral` `English-US.Female-Happy` `English-US.Female-Angry` `English-US.Female-Fearful` `English-US.Female-Sad` `English-US.Male-Calm` `English-US.Male-Neutral` `English-US.Male-Happy` `English-US.Male-Angry`	`🔉` `🔉` `🔉` `🔉` `🔉` `🔉` `🔉` `🔉` `🔉` `🔉` `🔉` `🔉`
英语 (en-US)	Rad-TTS HiFi-GAN	美式英语	IPA	多说话人	`English-US-RadTTS.Female-1` `English-US-RadTTS.Male-1` `English-US-RadTTS.Female-Calm` `English-US-RadTTS.Female-Neutral` `English-US-RadTTS.Female-Happy` `English-US-RadTTS.Female-Angry` `English-US-RadTTS.Female-Fearful` `English-US-RadTTS.Female-Sad` `English-US-RadTTS.Male-Calm` `English-US-RadTTS.Male-Neutral` `English-US-RadTTS.Male-Happy` `English-US-RadTTS.Male-Angry`	`🔉` `🔉`
英语 (en-US)	T5TTS AudioCodec	美式英语	IPA	多说话人	`English-US-T5TTS.Female-1` `English-US-T5TTS.Male-1` `English-US-T5TTS.Male-Calm` `English-US-T5TTS.Female-Calm` `English-US-T5TTS.Female-Fearful` `English-US-T5TTS.Male-Neutral` `English-US-T5TTS.Male-Angry` `English-US-T5TTS.Female-Angry` `English-US-T5TTS.Female-Neutral` `English-US-T5TTS.Male-Fearful` `English-US-T5TTS.Female-Happy`
英语 (en-US)	FastPitch HiFi-GAN	LJSpeech	ARPABET		`ljspeech`
英语 (en-US)	FastPitch HiFi-GAN (已弃用)	美式英语	ARPABET	多说话人	`English-US.Female-1` `English-US.Male-1`
普通话 (zh-CN)	FastPitch HiFi-GAN	中文普通话	IPA	多说话人	`Mandarin-CN.Female-1` `Mandarin-CN.Male-1` `Mandarin-CN.Female-Calm` `Mandarin-CN.Female-Neutral` `Mandarin-CN.Male-Happy` `Mandarin-CN.Male-Fearful` `Mandarin-CN.Male-Sad` `Mandarin-CN.Male-Calm` `Mandarin-CN.Male-Neutral` `Mandarin-CN.Male-Angry`
西班牙语 (es-ES)	FastPitch HiFi-GAN	公共/专有	IPA	女性	`Spanish-ES-Female-1`
西班牙语 (es-ES)	FastPitch HiFi-GAN	公共/专有	IPA	男性	`Spanish-ES-Male-1`
美式西班牙语 (es-US)	FastPitch HiFi-GAN	公共/专有	IPA	多说话人	`Spanish-US.Female-1` `Spanish-US.Male-1` `Spanish-US.Female-Calm` `Spanish-US.Male-Calm` `Spanish-US.Female-Angry` `Spanish-US.Male-Angry` `Spanish-US.Female-Neutral` `Spanish-US.Male-Neutral` `Spanish-US.Female-Sad` `Spanish-US.Male-Happy` `Spanish-US.Male-Fearful` `Spanish-US.Male-Sad`
意大利语 (it-IT)	FastPitch HiFi-GAN	公共/专有	IPA	女性	`Italian-IT-Female-1`
意大利语 (it-IT)	FastPitch HiFi-GAN	公共/专有	IPA	男性	`Italian-IT-Male-1`
德语 (de-DE)	FastPitch HiFi-GAN	公共/专有	IPA	男性	`German-DE-Male-1`

注意

T5 TTS 目前是 Beta 版本。

语言支持#

Riva 语音 AI 技能提供多种语言的预训练模型，这些模型在上面部分列出。升级后的模型和新语言会定期发布。

要选择要部署的语言，只需在快速入门脚本的 quickstart 目录中的 config.sh 文件中更改变量 tts_language_code 即可。

Zero Shot TTS (Beta 功能)#

Riva 引入了 Zero Shot TTS 作为 Beta 功能。此功能允许用户提供语音提示，使模型能够适应提示中的声音并使用它合成语音。

情感混合 (Beta 功能)#

Riva 现在支持情感强度的混合作为 Beta 功能。这将允许用户控制音频中的情感。此功能可通过 SSML emotion attribute 访问。目前，量化仅支持 Female 的 calm、angry、fearful、neutral 和 happy，以及 male 的 calm、happy 和 neutral。

自定义发音词典#

Riva TTS 支持提供文本词典，以获取服务器合成的特定单词的所需发音。此自定义词典必须包含一个单词（字素），后跟所需的发音（音素），两者之间用两个空格分隔。不同的此类单词和发音对可以在输入词典文件的新行中提供。输入词典文件可以在从客户端配置请求时在 custom_dictionary field 中传递。

检查已部署的模型#

一旦服务器运行，就可以通过 GetRivaSynthesisConfig RPC 检索可用模型。对于每个可用于发出推理请求的模型，RPC 返回模型部署时使用的参数。

输出音频编码#

除了默认的脉冲编码调制 (PCM) 输出流之外，您还可以选择 Opus 编码和压缩流。压缩使您能够显着降低网络带宽。

NVIDIA Riva

TTS 概述

目录

TTS 概述#

试用#

预训练 TTS 模型#

语言支持#

Zero Shot TTS (Beta 功能)#

情感混合 (Beta 功能)#

自定义发音词典#

检查已部署的模型#

输出音频编码#