Riva TTS NIM 概述#

Riva TTS NIM API 提供对先进的文本到语音 (TTS) 模型的便捷访问，能够以卓越的准确性从文本合成英语语音。它包含一个基于非自回归 Transformer 的频谱图生成器，该生成器使用 FastPitch 模型预测持续时间和音调，以及一个基于 GAN 的声码器 HiFi-GAN 模型。Riva TTS NIM 模型构建于 NVIDIA 软件平台之上，整合了 CUDA、TensorRT 和 Triton，以提供开箱即用的 GPU 加速。

架构#

模型架构可以在 FastPitch: Parallel Text-to-Speech with Pitch Prediction 论文和 HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis 论文中找到。

企业级功能#

Riva TTS NIM 具有企业级功能，例如高性能推理服务器、灵活的集成和企业级安全性。

先进的准确性：在各种来源和领域中表现出色。
开源和可扩展性：构建于 NVIDIA NeMo 之上，允许无缝集成和自定义。
预训练检查点：可直接用于推理或微调的预训练模型。
宽松许可证：在 CC-BY-4.0 许可证下发布，模型检查点可用于任何商业应用。

立即试用#

Riva TTS NIM 可以在 NVIDIA NIM 中试用。