Riva TTS NIM 概述#

Riva TTS NIM API 提供对先进的文本到语音 (TTS) 模型的便捷访问,能够以卓越的准确性从文本合成英语语音。它包含一个基于非自回归 Transformer 的频谱图生成器,该生成器使用 FastPitch 模型预测持续时间和音调,以及一个基于 GAN 的声码器 HiFi-GAN 模型。Riva TTS NIM 模型构建于 NVIDIA 软件平台之上,整合了 CUDA、TensorRT 和 Triton,以提供开箱即用的 GPU 加速。

架构#

模型架构可以在 FastPitch: Parallel Text-to-Speech with Pitch Prediction 论文HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis 论文中找到。

企业级功能#

Riva TTS NIM 具有企业级功能,例如高性能推理服务器、灵活的集成和企业级安全性。

  • 先进的准确性:在各种来源和领域中表现出色。

  • 开源和可扩展性:构建于 NVIDIA NeMo 之上,允许无缝集成和自定义。

  • 预训练检查点:可直接用于推理或微调的预训练模型。

  • 宽松许可证:在 CC-BY-4.0 许可证下发布,模型检查点可用于任何商业应用。

立即试用#

Riva TTS NIM 可以在 NVIDIA NIM 中试用。