发行说明#
v1.2.0#
SDK 版本#
Audio2Face
: 0.22.4Audio2Emotion
: 0.7.9
功能#
新服务现已作为可下载的 NIM 提供,无缝集成到 NVIDIA NIM 生态系统中。
新的 James 2.3 推理模型提供更好的唇形同步质量、更强的针对不同情感的上半脸表情,以及在静音期间更少的嘴唇拉伸伪影。
新的 Claire 2.3 推理模型提供更好的唇形同步质量,包括 F V M B P U S 声音,以及更强的针对不同情感的上半脸表情。
新的 Mark 2.3 推理模型提供更好的唇形同步质量,包括 F V M B P U S 声音。
引入了对 gRPC 双向流的支持,实现了客户端和服务之间的实时通信,同时消除了之前所需的 A2F 控制器的需求。
添加了运行时控制,用于钳制 0 到 1 之间的 blendshape 值。
集成了 OpenTelemetry 以实现高级可观测性,提供统一的跟踪和指标。
添加了从 NVCF 下载预构建的 TensorRT (TRT) 引擎的功能,降低了服务设置的复杂性。
为导出正在运行的服务实例的配置引入了实验性 gRPC 端点。
更新了日志记录系统,以结构化 JSON 格式输出应用程序日志。
v1.0.0#
SDK 版本#
Audio2Face
: 0.17.0Audio2Emotion
: 0.2.2
功能#
新的 Claire 1.3 推理模型提供了增强的嘴唇运动以及对 P 和 M 声音的更好准确性。
新的 Mark 2.2 推理模型在使用 Metahuman 角色时提供更好的唇形同步和面部性能质量。
用户现在可以指定首选情感,从而实现针对特定应用程序(如交互式头像和虚拟助手)的个性化输出。
在微服务中添加了情感输出,以帮助对齐其他下游动画组件。
除了 16kHz 之外,还支持新的输出音频采样率:22.05kHz、44.1kHz、48kHz。
添加了在运行时使用独特的面部参数、情感参数、blendshape 乘数和 blendshape 偏移来调整每个流的能力。
主要改进#
改进了 gRPC 协议以使用更少的数据,并为可扩展性提供更高效的流。不再需要 USD 解析器。
改进了 blendshape 求解线程以提高可扩展性。