切换导航侧边栏
切换页内目录
NVIDIA Riva
入门指南
概述
快速入门指南
NVIDIA AI Enterprise 试用
发行说明
安装
最佳实践
本地 (Docker)
Kubernetes
如何在 AWS 上使用 EKS 大规模部署 Riva
NVIDIA Fleet Command
教程
语音识别
如何使用 Riva ASR API 和开箱即用模型?
为语音提示创建语法
如何使用词典映射自定义 Riva ASR 词汇表和发音
如何在 Riva 上部署使用 NeMo 训练的自定义语言模型 (n-gram)
如何在 Riva 上部署使用 NeMo 训练的自定义声学模型 (Citrinet)
如何在 Riva 上部署使用 NeMo 训练的自定义声学模型 (Conformer-CTC)
如何部署带有 WFST 解码器的 Conformer-CTC 声学模型
如何使用 NVIDIA NeMo 微调 Riva ASR 声学模型
如何使用适配器自定义 Riva ASR 声学模型 (Conformer-CTC)
如何使用 NVIDIA NeMo 微调 Riva ASR 声学模型
如何提高特定词语的识别率
如何合成可用于训练噪声鲁棒 ASR 模型的噪声数据集
如何通过在 Riva ASR 管道中微调声学模型 (Conformer-CTC) 来提高噪声语音的准确性
如何训练、评估和微调 n-gram 语言模型
如何将说话人分离与 Riva ASR 一起使用?
如何在运行时通过词语增强来增强特定词语?
Riva 中对基于类的 n-gram 语言模型 (WFST 解码器) 的支持
语音识别 - 新语言适配
云部署
如何在 Azure Cloud 上使用 AKS 大规模部署 Riva?
如何在 AWS 上使用 EKS 大规模部署 Riva
如何在 Google Cloud 上使用 GKE 大规模部署 Riva?
如何在 OCI 上使用 OKE 大规模部署 Riva
语音合成
如何使用 Riva TTS API 和开箱即用模型?
TTS 部署
评估 TTS 管道
使用 NeMo 进行文本到语音的微调
计算和绘制 TTS 数据集中音素的分布
在家录制 TTS 数据集的指南
翻译
如何使用 Riva NMT API 和开箱即用模型执行语言翻译?
如何在 Riva Speech Skills 服务器上部署 NeMo 微调的 NMT 模型?
如何使用 Nvidia NeMo 微调 Riva NMT 双语模型
如何使用 Nvidia NeMo 和 Riva NMT 多语言模型执行合成数据生成
如何使用 Nvidia NeMo 微调 Riva NMT 多语言模型
架构
概述
新编程语言的客户端
语音识别
ASR 概述
语音识别基础知识和 Riva ASR 的自定义
管道配置
性能
ASR 高级细节
语音合成
TTS 概述
TTS 推理和自定义
TTS 零样本
自定义语音的说话人适配器
自定义模型
性能
TTS 部署
音素支持
数据收集 - 脚本生成
自然语言处理
NLP 概述
自定义模型
翻译
翻译概述
自定义模型
性能
SDK 和示例应用程序
Python
命令行客户端
示例应用程序
Riva Contact
Riva 虚拟助手示例
虚拟助手(使用 Rasa)
虚拟助手(使用 Google Dialogflow)
SpeechSquad
AudioCodes VoiceGateway 示例
参考
模型
语音识别
自然语言处理
自然机器翻译 (NMT)
语音合成
gRPC & Protocol Buffers
故障排除
支持矩阵
升级
致谢
最终用户许可协议
声明
语音合成
语音合成
#
如何使用 Riva TTS API 和开箱即用模型?
NVIDIA Riva 概述
基础知识:使用 Riva TTS API 生成语音
使用 SSML 自定义 Riva TTS 音频输出
TTS 部署
学习目标
先决条件
Riva ServiceMaker
运行 riva-build
运行 riva-deploy
运行推理
连接到 Riva 服务器并运行推理
评估 TTS 管道
下载数据
从 asr 合成文本。
计算字符错误率 (CER)。
计算 WER(词错误率)
结论
使用 NeMo 进行文本到语音的微调
文本到语音
深入研究:使用 NeMo 的 TTS
计算和绘制 TTS 数据集中音素的分布
获取 arpabet 文件
参考分布
加载参考分布
样本语料库音素
一起绘制分布
音素与参考分布的比较
计算参考分布和总音素之间的关键差异
结论
在家录制 TTS 数据集的指南
推荐数据
硬件要求
软件要求
录音先决条件
录音前调整麦克风音量和身体姿势
将自己定位在适当的位置,太远或太近
录制 TTS 数据