logo

NVIDIA Riva

入门指南

  • 概述
  • 快速入门指南
  • NVIDIA AI Enterprise 试用
  • 发行说明

安装

  • 最佳实践
  • 本地 (Docker)
  • Kubernetes
  • 如何在 AWS 上使用 EKS 大规模部署 Riva
  • NVIDIA Fleet Command

教程

  • 语音识别
    • 如何将 Riva ASR API 与开箱即用模型一起使用?
    • 为语音提示创建语法
    • 如何使用词典映射自定义 Riva ASR 词汇和发音
    • 如何在 Riva 上部署使用 NeMo 训练的自定义语言模型 (n-gram)
    • 如何在 Riva 上部署使用 NeMo 训练的自定义声学模型 (Citrinet)
    • 如何在 Riva 上部署使用 NeMo 训练的自定义声学模型 (Conformer-CTC)
    • 如何部署带有 WFST 解码器的 Conformer-CTC 声学模型
    • 如何使用 NVIDIA NeMo 微调 Riva ASR 声学模型
    • 如何使用适配器自定义 Riva ASR 声学模型 (Conformer-CTC)
    • 如何使用 NVIDIA NeMo 微调 Riva ASR 声学模型
    • 如何提高特定词的识别率
    • 如何合成可用于训练噪声鲁棒 ASR 模型的噪声数据集
    • 如何通过在 Riva ASR 管道中微调声学模型 (Conformer-CTC) 来提高噪声语音的准确率
    • 如何训练、评估和微调 n-gram 语言模型
    • 如何将说话人分离与 Riva ASR 一起使用?
    • 如何在运行时使用词语提升来提升特定词语?
    • Riva 中基于类的 n-gram 语言模型支持 (WFST 解码器)
  • 语音识别 - 新语言适配
  • 云部署
    • 如何在 Azure 云上使用 AKS 大规模部署 Riva?
    • 如何在 AWS 上使用 EKS 大规模部署 Riva
    • 如何在 Google 云上使用 GKE 大规模部署 Riva?
    • 如何在 OCI 上使用 OKE 大规模部署 Riva
  • 语音合成
    • 如何将 Riva TTS API 与开箱即用模型一起使用?
    • TTS 部署
    • 评估 TTS 管道
    • 使用 NeMo 进行文本到语音的微调
    • 计算并绘制 TTS 数据集中音素的分布
    • 在家录制 TTS 数据集的指南
  • 翻译
    • 如何使用 Riva NMT API 和开箱即用模型执行语言翻译?
    • 如何在 Riva Speech Skills 服务器上部署 NeMo 微调的 NMT 模型?
    • 如何使用 Nvidia NeMo 微调 Riva NMT 双语模型
    • 如何使用 Nvidia NeMo 和 Riva NMT 多语言模型执行合成数据生成
    • 如何使用 Nvidia NeMo 微调 Riva NMT 多语言模型

架构

  • 概述
  • 新编程语言的客户端

语音识别

  • ASR 概述
  • 语音识别基础知识和 Riva ASR 的自定义
  • 管道配置
  • 性能
  • ASR 高级细节

语音合成

  • TTS 概述
  • TTS 推理和自定义
  • TTS 零样本
  • 自定义语音的说话人适配器
  • 自定义模型
  • 性能
  • TTS 部署
  • 音素支持
  • 数据收集 - 脚本生成

自然语言处理

  • NLP 概述
  • 自定义模型

翻译

  • 翻译概述
  • 自定义模型
  • 性能

SDK 和示例应用

  • Python
  • 命令行客户端
  • 示例应用
    • Riva Contact
    • Riva 虚拟助手示例
    • 虚拟助手 (使用 Rasa)
    • 虚拟助手 (使用 Google Dialogflow)
    • SpeechSquad
    • AudioCodes VoiceGateway 示例

参考

  • 模型
    • 语音识别
    • 自然语言处理
    • 自然机器翻译 (NMT)
    • 语音合成
  • gRPC & Protocol Buffers
  • 故障排除
  • 支持矩阵
  • 升级
  • 致谢
  • 终端用户许可协议
  • 注意事项

模型

模型#

  • 语音识别
    • Parakeet
    • Conformer-CTC
    • Citrinet
    • Jasper
    • QuartzNet
    • MarbleNet
    • TitaNet
  • 自然语言处理
    • BERT
    • DistilBERT
    • Megatron
  • 自然机器翻译 (NMT)
    • 基于 Transformer 的 Seq2Seq
  • 语音合成
    • Mel 频谱图生成器
    • 声码器

上一页

AudioCodes VoiceGateway 示例

下一页

语音识别

由 NVIDIA 提供
© 版权所有 2024 NVIDIA CORPORATION 及关联公司。保留所有权利。
最后更新于 2025 年 1 月 3 日。

© . All rights reserved.