ACE 发行说明#

24.06 版本#

ACE 24.06 推出了我们数字人技术套件中许多组件的正式版本。随着我们将微服务迁移到 NIM,ACE 微服务将通过 NVIDIA AI Enterprise 提供,工作流程示例可以在我们新的 GitHub 存储库中找到。

数字人和 ACE 微服务的 NIM#

NIM 是支持我们数字人微服务套件的核心技术。这些微服务可以集成到现有的数字人平台和框架中,或直接在您的应用程序中使用。

NVIDIA AI Enterprise 支持#

Riva ASR 2.15.1#
  • 新功能

    • 添加了 ASR Parakeet-ctc-1.1b 英语(默认)

    • Parakeet-ctc-0.6b-unified 英语(测试版)

    • Parakeet-ctc-1.1b-unified-ml-cs EMEA 模型(测试版)

  • 主要改进

    • ASR Parakeet-ctc-1.1b 英语(默认):更高的准确率(更低的 WER)和更好的口音英语语音鲁棒性

    • Parakeet-ctc-0.6b-unified 英语(测试版):支持低延迟标点转录

    • Parakeet-ctc-1.1b-unified-ml-cs EMEA 模型(测试版):支持 EMEA 多语言、代码切换和低延迟标点转录

Riva TTS 2.15.1#
  • 新功能

    • TTS 扩展

      • 德语(男声)

      • 欧洲西班牙语(男声、女声)

      • 普通话(男声/女声)

      • 意大利语(男声/女声)

      • 拉丁美洲西班牙语模型(男声/女声)

    • P-Flow(零样本)测试版发布

  • 主要改进

    • 修复了可能导致使用 RADTTS++(测试版)情感混合模型合成的音频中断的问题。

Riva NMT 2.15.1#
  • 新功能

    • 添加了 NMT megatron 1.5B 任意到任意翻译模型。

  • 主要改进

    • 支持直接非英语翻译,对西班牙语、中文、日语、法语、德语、俄语具有高准确率。

Audio2Face-3D#

请在此处查看 Audio2Face-3D 发行说明 here

Omniverse 渲染器微服务 1.0.1#
  • 新功能

    • 新的动画数据协议以及 gRPC 和 HTTP 端点

    • 清理了微服务参数

  • 主要改进

    • 各种稳定性、日志记录、调试和错误处理改进

动画图微服务 1.0.1#
  • 新功能

    • 增加了对头像位置和面部表情动画的支持

    • 新的动画数据协议以及 gRPC 和 HTTP 端点

    • 清理了微服务参数

  • 主要改进

    • 各种稳定性、日志记录、调试和错误处理改进

ACE Agent 4.0.0#
  • 新功能

    • 通过 LLM 输出流支持减少机器人响应延迟。

    • 支持 Colang 2.0 和 UMIM 异步事件接口,增强了对头像动作的控制。Colang 1.1 支持也得以保留。

    • 无需任何基于 Colang 的逻辑即可为任何自定义构建的 RAG 或 LLM 基础管线添加语音支持。

    • 预构建支持 NVIDIA GenerativeAIExamples RAG 工作流程

  • 主要改进

    • 改进了与 LangChain、Lang Graph 或任何其他基于框架的代理或 RAG 的集成支持

    • 支持托管在 https://build.nvidia.com/ 上的 LLM 模型

抢先体验版微服务#

SpeechLivePortrait 0.1.0#
  • 新功能

    • 全新的 A2F-2D 微服务,通过动画嘴唇运动以匹配音频的嘴唇运动,使用音频输入来动画人物肖像照片。

    • 支持面部特征,包括唇形同步、眨眼和头部姿势动画。

    • 支持两种模式;质量模式用于更高的视觉保真度,性能模式用于在实时流媒体上更快地运行。

    • 模型启动到 30FPS 输出的流媒体性能的算法延迟为 198 毫秒,如

      • 性能模式

        • 延迟:22 毫秒 (L4),9.62 毫秒 (L40)

        • 吞吐量:1 个并发流 (L4),3 个并发流 (L40)

      • 质量模式(旨在用于离线增强)

        • 延迟:57.80 毫秒 (L4),20 毫秒 (L40)

        • 吞吐量:0 个并发流 (L4),1 个并发流 (L40)

Nemotron 4.5B SLM 0.1.0#
  • 新功能

    • 新的小型语言模型 (SLM),专为设备上的对话推理而设计。

    • 包括 INT4 量化,以实现最小的 VRAM 使用量。

    • 新的 NVIDIA AIM 插件可通过我们的 ACE 抢先体验计划获得。

    • 支持角色扮演和 RAG 用例

VoiceFont 1.1.1#
  • 新功能

  • 新的低延迟模型,算法延迟减少了 170 毫秒,适用于实时用例

  • 在所有 GPU 上支持 4 个并发批次

  • 增加了对 Hopper GPU (H100) 的支持

ACE 参考工作流程#

参考工作流程展示了如何使用微服务为特定用例构建数字人。这些工作流程旨在作为示例,而不是完整的解决方案。

客户服务工作流程#

在此版本中,客户服务工作流程 (Tokkio) 包括利用与 Riva 和头像动画微服务集成的 NVIDIA-LLM 企业 RAG 的工作流程。您可以利用此工作流程,对其进行自定义,并通过连接到您的客户服务数字人来加速您的开发,从而带来您自己的自定义 RAG。

新的参考组件#
  • QSR 应用程序、基于 LLM 的应用程序的生成式 AI 示例

  • 头像配置器工具

  • ACE agent 快速启动脚本

  • 动画管线的 Helm chart

  • 动画管线的默认屏幕

  • 客户头像的模板场景

游戏角色工作流程#

此版本的目标是我们首个游戏参考工作流程,重点是在游戏中启用 Audio2Face-3D 微服务。此插件可用于集成到现有的游戏角色平台中,或直接在游戏中使用。

新的参考组件#
  • 带有 Audio2Face-3D 的 Unreal Engine 插件

新示例#
  • Audio2Face-3D 配置示例,该示例使用 NVCF API 密钥进行推理,并展示了 Unreal Engine 插件的用法。

工具#

ACE 工具帮助构建和创建自定义工作流程并扩展参考功能。

UCS Tools 2.5#

  • 新功能

    • UCS Tools 现在可以将应用程序部署到 NVCF

    • 支持 k8s 部署和 statefulsets 中的 HorizontalPodAutoscaler

    • UCS 应用程序中的微服务现在可以与 NVIDIA k8s RAG Operator 交互,以隐式连接和部署 NeMo 微服务

    • 现在可以在同一个 UCS 应用程序中多次使用同一个微服务,并使用 Helm Chart 别名功能

  • 主要改进

    • 更新了日志记录,以便在发生错误时提供更多详细信息

    • SemVer 预发布版本现在在 Helm Charts 和 MS 规范中受支持。示例包括 1.0.0-alpha.1、1.0.0-rc.1 等。

    • 在 ucf.k8s.service 组件中,用户现在可以将“port”值设置为 manifest.yaml 的“params”块中定义的参数,例如 port: $params.servicePort

    • StatefulSets 现在必须使用新参数 statefulSetServiceName 来设置服务名称,这将有助于设置 K8s 资源 StatefulSet.spec.serviceName 字段。

头像配置器 1.0.1#

  • 新功能

    • 添加了 Ferret 基础头像

    • 添加了替代发型

    • 添加了围裙服装选项