Audio2Face-3D Authoring 微服务#

概述#

Audio2Face-3D (A2F-3D) Authoring 微服务是我们面部动画技术栈的补充组件。它旨在迭代指定音频剪辑的面部和情感参数。这允许实时查看 Avatar 面部上的参数更新。

A2F-3D Authoring 微服务响应来自客户端 RPC 的请求。有两种请求

UploadAudioClip:
此 RPC 将音频剪辑上传到 AuthoringService 进行处理。它返回与哈希音频剪辑对应的哈希值和 blendshape 键列表。
GetAvatarFacePose:
此 RPC 请求指定时间码的单个动画帧。它返回与此音频时间码和参数对应的 blendshape 值和情感值列表。要探索可以创作的内容，请查看 Protobuf 数据中 GetAvatarFacePose 方法输入的 Protobuf 定义。

注意

Audio2Face-3D Authoring 微服务单独处理帧以进行推理。诸如 emotion_contrast 和 live_blend_coef 等后处理参数依赖于多个帧进行平滑处理，使其在此上下文中不适用。

目前，我们仅支持 mono 16-bits PCM 音频格式，采样率任意。

面部参数

Audio2Face-3D Authoring 支持的面部参数包括

其他参数可能会偶尔出现在配置文件中；但是，它们不会影响头像的面部表情。此类参数的示例包括 blinkStrength、tongueStrength、tongueHeightOffset 和 tongueDepthOffset。

注意

Audio2Face-3D Authoring 微服务单独处理帧以进行推理。诸如 upperFaceSmoothing 和 lowerFaceSmoothing 等参数依赖于多个帧进行平滑处理，使其在此上下文中不适用。

Blendshapes

Audio2Face-3D Authoring 输出 blendshape。有关更多信息，请参阅 ARKit blendShape 文档。

Audio2Face-3D 不会动画头部、舌头和眼睛运动。

以下 blend shape 值将始终为 0

在 Audio2Face-3D Authoring 输出中。

注意

blendshape mouthClose 的定义偏离了标准 ARKit 版本。该形状包括下颌的张开。

Audio2Face-3D Authoring 正在执行批处理推理，以优化计算并同时为多个用户提供服务。部署微服务时，您可以在配置文件中更新此批处理大小。

批处理大小越高

整体吞吐量受 gpu 处理能力限制。

以下配置文件用于 A2F-3D Authoring MS。

注意

clib_db_ttl_refresh 和 clib_db_ttl_check_interval_seconds 选项的名称中包含拼写错误。这将在即将发布的版本中更正。

对于 James

对于 Mark

对于 Claire

我们建议仅在需要时调整配置文件中的以下参数

有关音频剪辑存储的更多信息，请参阅此页面。