发行说明#

v1.2.0#

SDK 版本#

Audio2Face: 0.22.4
Audio2Emotion: 0.7.9

功能#

新服务现已作为可下载的 NIM 提供，无缝集成到 NVIDIA NIM 生态系统中。
新的 James 2.3 推理模型提供更好的唇形同步质量、更强的针对不同情感的上半脸表情，以及在静音期间更少的嘴唇拉伸伪影。
新的 Claire 2.3 推理模型提供更好的唇形同步质量，包括 F V M B P U S 声音，以及更强的针对不同情感的上半脸表情。
新的 Mark 2.3 推理模型提供更好的唇形同步质量，包括 F V M B P U S 声音。
引入了对 gRPC 双向流的支持，实现了客户端和服务之间的实时通信，同时消除了之前所需的 A2F 控制器的需求。
添加了运行时控制，用于钳制 0 到 1 之间的 blendshape 值。
集成了 OpenTelemetry 以实现高级可观测性，提供统一的跟踪和指标。
添加了从 NVCF 下载预构建的 TensorRT (TRT) 引擎的功能，降低了服务设置的复杂性。
为导出正在运行的服务实例的配置引入了实验性 gRPC 端点。
更新了日志记录系统，以结构化 JSON 格式输出应用程序日志。

v1.0.0#

SDK 版本#

Audio2Face: 0.17.0
Audio2Emotion: 0.2.2

功能#

新的 Claire 1.3 推理模型提供了增强的嘴唇运动以及对 P 和 M 声音的更好准确性。
新的 Mark 2.2 推理模型在使用 Metahuman 角色时提供更好的唇形同步和面部性能质量。
用户现在可以指定首选情感，从而实现针对特定应用程序（如交互式头像和虚拟助手）的个性化输出。
在微服务中添加了情感输出，以帮助对齐其他下游动画组件。
除了 16kHz 之外，还支持新的输出音频采样率：22.05kHz、44.1kHz、48kHz。
添加了在运行时使用独特的面部参数、情感参数、blendshape 乘数和 blendshape 偏移来调整每个流的能力。

主要改进#

改进了 gRPC 协议以使用更少的数据，并为可扩展性提供更高效的流。不再需要 USD 解析器。
改进了 blendshape 求解线程以提高可扩展性。