概述#

NVIDIA Audio2Face-3D NIM (A2F-3D NIM) 正在交付基于音频和情感输入的生成式 AI 头像动画解决方案。

Audio2Face-3D NIM 是 NVIDIA NIM™ 和 NVIDIA AI Enterprise 的组件。NVIDIA NIM™ 提供用于自托管 GPU 加速推理微服务的容器，从而能够在云、数据中心和工作站中部署预训练和自定义的 AI 模型。

Audio2Face-3D NIM 以 ARKit Blendshapes 的形式将语音转换为面部动画。面部动画包括情感表达。在可以检测到情感的地方，面部动画系统会捕捉关键姿势和形状，通过自动检测输入音频中的情感来复制角色面部表演。此外，情感可以直接指定为 A2F-3D NIM 输入的一部分。渲染引擎可以消耗 Blendshape 拓扑来显示 3D 头像的表演。

此 Audio2Face-3D NIM 同时支持多个输入流，从而实现允许许多用户同时连接和生成动画输出的工作流程。

Audio2Face-3D NIM 也可用作微服务，可以与其他 NVIDIA 统一云服务工具微服务连接，这些微服务支持其端点协议。

在我们的演示网站上试用 A2F-3D NIM 体验。

注意

对于 Audio2Face-3D 1.0 版本用户，请使用此处的旧版文档链接 here。