概述

NVIDIA Maxine Studio Voice NIM 利用最先进的 AI 模型来增强通过低质量麦克风在嘈杂和混响环境中录制的输入语音,使其达到录音棚录制质量的语音。 NVIDIA Maxine Studio Voice NIM 模型构建于 NVIDIA 软件平台之上,集成了 CUDA、TensorRT 和 Triton,以提供开箱即用的 GPU 加速。

架构

NVIDIA Maxine Studio Voice 采用时域卷积编码器-解码器网络,并将序列建模应用于编码后的潜在表示。编码器处理输入语音样本以创建潜在语音表示。这种表示以预设的录音棚质量嵌入为条件,使用多头注意力模块进行序列建模。解码器是一个波形卷积前馈网络,它对序列建模模块的输出进行上采样,以生成最终的录音棚质量音频。

试用

请访问此链接试用 NVIDIA Maxine Studio Voice NIM。 此外,访问 Try API 功能,无需托管您自己的服务器即可体验 NVIDIA Studio Voice NIM API,因为它利用了 NVIDIA 云函数后端。