发行说明#

v1.2.0#

SDK 版本#

  • Audio2Face: 0.22.4

  • Audio2Emotion: 0.7.9

功能#

  • 新服务现已作为可下载的 NIM 提供,无缝集成到 NVIDIA NIM 生态系统中。

  • 新的 James 2.3 推理模型提供更好的唇形同步质量、更强的针对不同情感的上半脸表情,以及在静音期间更少的嘴唇拉伸伪影。

  • 新的 Claire 2.3 推理模型提供更好的唇形同步质量,包括 F V M B P U S 声音,以及更强的针对不同情感的上半脸表情。

  • 新的 Mark 2.3 推理模型提供更好的唇形同步质量,包括 F V M B P U S 声音。

  • 引入了对 gRPC 双向流的支持,实现了客户端和服务之间的实时通信,同时消除了之前所需的 A2F 控制器的需求。

  • 添加了运行时控制,用于钳制 0 到 1 之间的 blendshape 值。

  • 集成了 OpenTelemetry 以实现高级可观测性,提供统一的跟踪和指标。

  • 添加了从 NVCF 下载预构建的 TensorRT (TRT) 引擎的功能,降低了服务设置的复杂性。

  • 为导出正在运行的服务实例的配置引入了实验性 gRPC 端点。

  • 更新了日志记录系统,以结构化 JSON 格式输出应用程序日志。

v1.0.0#

SDK 版本#

  • Audio2Face: 0.17.0

  • Audio2Emotion: 0.2.2

功能#

  • 新的 Claire 1.3 推理模型提供了增强的嘴唇运动以及对 P 和 M 声音的更好准确性。

  • 新的 Mark 2.2 推理模型在使用 Metahuman 角色时提供更好的唇形同步和面部性能质量。

  • 用户现在可以指定首选情感,从而实现针对特定应用程序(如交互式头像和虚拟助手)的个性化输出。

  • 在微服务中添加了情感输出,以帮助对齐其他下游动画组件。

  • 除了 16kHz 之外,还支持新的输出音频采样率:22.05kHz、44.1kHz、48kHz。

  • 添加了在运行时使用独特的面部参数、情感参数、blendshape 乘数和 blendshape 偏移来调整每个流的能力。

主要改进#

  • 改进了 gRPC 协议以使用更少的数据,并为可扩展性提供更高效的流。不再需要 USD 解析器。

  • 改进了 blendshape 求解线程以提高可扩展性。