ACE 发行说明#
24.06 版本#
ACE 24.06 推出了我们数字人技术套件中许多组件的正式版本。随着我们将微服务迁移到 NIM,ACE 微服务将通过 NVIDIA AI Enterprise 提供,工作流程示例可以在我们新的 GitHub 存储库中找到。
数字人和 ACE 微服务的 NIM#
NIM 是支持我们数字人微服务套件的核心技术。这些微服务可以集成到现有的数字人平台和框架中,或直接在您的应用程序中使用。
NVIDIA AI Enterprise 支持#
Riva ASR 2.15.1#
新功能
添加了 ASR Parakeet-ctc-1.1b 英语(默认)
Parakeet-ctc-0.6b-unified 英语(测试版)
Parakeet-ctc-1.1b-unified-ml-cs EMEA 模型(测试版)
主要改进
ASR Parakeet-ctc-1.1b 英语(默认):更高的准确率(更低的 WER)和更好的口音英语语音鲁棒性
Parakeet-ctc-0.6b-unified 英语(测试版):支持低延迟标点转录
Parakeet-ctc-1.1b-unified-ml-cs EMEA 模型(测试版):支持 EMEA 多语言、代码切换和低延迟标点转录
Riva TTS 2.15.1#
新功能
TTS 扩展
德语(男声)
欧洲西班牙语(男声、女声)
普通话(男声/女声)
意大利语(男声/女声)
拉丁美洲西班牙语模型(男声/女声)
P-Flow(零样本)测试版发布
主要改进
修复了可能导致使用 RADTTS++(测试版)情感混合模型合成的音频中断的问题。
Riva NMT 2.15.1#
新功能
添加了 NMT megatron 1.5B 任意到任意翻译模型。
主要改进
支持直接非英语翻译,对西班牙语、中文、日语、法语、德语、俄语具有高准确率。
Audio2Face-3D#
请在此处查看 Audio2Face-3D 发行说明 here。
Omniverse 渲染器微服务 1.0.1#
新功能
新的动画数据协议以及 gRPC 和 HTTP 端点
清理了微服务参数
主要改进
各种稳定性、日志记录、调试和错误处理改进
动画图微服务 1.0.1#
新功能
增加了对头像位置和面部表情动画的支持
新的动画数据协议以及 gRPC 和 HTTP 端点
清理了微服务参数
主要改进
各种稳定性、日志记录、调试和错误处理改进
ACE Agent 4.0.0#
新功能
通过 LLM 输出流支持减少机器人响应延迟。
支持 Colang 2.0 和 UMIM 异步事件接口,增强了对头像动作的控制。Colang 1.1 支持也得以保留。
无需任何基于 Colang 的逻辑即可为任何自定义构建的 RAG 或 LLM 基础管线添加语音支持。
预构建支持 NVIDIA GenerativeAIExamples RAG 工作流程
主要改进
改进了与 LangChain、Lang Graph 或任何其他基于框架的代理或 RAG 的集成支持
支持托管在 https://build.nvidia.com/ 上的 LLM 模型
抢先体验版微服务#
SpeechLivePortrait 0.1.0#
新功能
全新的 A2F-2D 微服务,通过动画嘴唇运动以匹配音频的嘴唇运动,使用音频输入来动画人物肖像照片。
支持面部特征,包括唇形同步、眨眼和头部姿势动画。
支持两种模式;质量模式用于更高的视觉保真度,性能模式用于在实时流媒体上更快地运行。
模型启动到 30FPS 输出的流媒体性能的算法延迟为 198 毫秒,如
性能模式
延迟:22 毫秒 (L4),9.62 毫秒 (L40)
吞吐量:1 个并发流 (L4),3 个并发流 (L40)
质量模式(旨在用于离线增强)
延迟:57.80 毫秒 (L4),20 毫秒 (L40)
吞吐量:0 个并发流 (L4),1 个并发流 (L40)
Nemotron 4.5B SLM 0.1.0#
新功能
新的小型语言模型 (SLM),专为设备上的对话推理而设计。
包括 INT4 量化,以实现最小的 VRAM 使用量。
新的 NVIDIA AIM 插件可通过我们的 ACE 抢先体验计划获得。
支持角色扮演和 RAG 用例
VoiceFont 1.1.1#
新功能
新的低延迟模型,算法延迟减少了 170 毫秒,适用于实时用例
在所有 GPU 上支持 4 个并发批次
增加了对 Hopper GPU (H100) 的支持
ACE 参考工作流程#
参考工作流程展示了如何使用微服务为特定用例构建数字人。这些工作流程旨在作为示例,而不是完整的解决方案。
客户服务工作流程#
在此版本中,客户服务工作流程 (Tokkio) 包括利用与 Riva 和头像动画微服务集成的 NVIDIA-LLM 企业 RAG 的工作流程。您可以利用此工作流程,对其进行自定义,并通过连接到您的客户服务数字人来加速您的开发,从而带来您自己的自定义 RAG。
新的参考组件#
QSR 应用程序、基于 LLM 的应用程序的生成式 AI 示例
头像配置器工具
ACE agent 快速启动脚本
动画管线的 Helm chart
动画管线的默认屏幕
客户头像的模板场景
游戏角色工作流程#
此版本的目标是我们首个游戏参考工作流程,重点是在游戏中启用 Audio2Face-3D 微服务。此插件可用于集成到现有的游戏角色平台中,或直接在游戏中使用。
新的参考组件#
带有 Audio2Face-3D 的 Unreal Engine 插件
新示例#
Audio2Face-3D 配置示例,该示例使用 NVCF API 密钥进行推理,并展示了 Unreal Engine 插件的用法。
工具#
ACE 工具帮助构建和创建自定义工作流程并扩展参考功能。
UCS Tools 2.5#
新功能
UCS Tools 现在可以将应用程序部署到 NVCF
支持 k8s 部署和 statefulsets 中的 HorizontalPodAutoscaler
UCS 应用程序中的微服务现在可以与 NVIDIA k8s RAG Operator 交互,以隐式连接和部署 NeMo 微服务
现在可以在同一个 UCS 应用程序中多次使用同一个微服务,并使用 Helm Chart 别名功能
主要改进
更新了日志记录,以便在发生错误时提供更多详细信息
SemVer 预发布版本现在在 Helm Charts 和 MS 规范中受支持。示例包括 1.0.0-alpha.1、1.0.0-rc.1 等。
在 ucf.k8s.service 组件中,用户现在可以将“port”值设置为 manifest.yaml 的“params”块中定义的参数,例如
port: $params.servicePort
StatefulSets 现在必须使用新参数
statefulSetServiceName
来设置服务名称,这将有助于设置 K8s 资源 StatefulSet.spec.serviceName 字段。
头像配置器 1.0.1#
新功能
添加了 Ferret 基础头像
添加了替代发型
添加了围裙服装选项