概述

NVIDIA Maxine Studio Voice NIM 利用最先进的 AI 模型来增强通过低质量麦克风在嘈杂和混响环境中录制的输入语音，使其达到录音棚录制质量的语音。 NVIDIA Maxine Studio Voice NIM 模型构建于 NVIDIA 软件平台之上，集成了 CUDA、TensorRT 和 Triton，以提供开箱即用的 GPU 加速。

架构

NVIDIA Maxine Studio Voice 采用时域卷积编码器-解码器网络，并将序列建模应用于编码后的潜在表示。编码器处理输入语音样本以创建潜在语音表示。这种表示以预设的录音棚质量嵌入为条件，使用多头注意力模块进行序列建模。解码器是一个波形卷积前馈网络，它对序列建模模块的输出进行上采样，以生成最终的录音棚质量音频。

试用

请访问此链接试用 NVIDIA Maxine Studio Voice NIM。此外，访问 Try API 功能，无需托管您自己的服务器即可体验 NVIDIA Studio Voice NIM API，因为它利用了 NVIDIA 云函数后端。