概述#
NVIDIA Maxine 眼神交流 NIM 利用最先进的 AI 模型,实时动态地将用户的眼睛位置重定向到摄像头,以模拟自然的眼神交流并增强远程数字互动。NVIDIA Maxine 眼神交流 NIM 模型构建于 NVIDIA 软件平台之上,整合了 CUDA、TensorRT 和 Triton,提供开箱即用的 GPU 加速。
架构#
NVIDIA Maxine 眼神交流在眼睛周围的感兴趣区域(也称为眼部补丁)上运行。眼部补丁通过 NVIDIA Maxine 人脸追踪管线从视频帧中提取,该管线计算视频帧的 2D 面部地标和 6DOF 头部姿势。然后,此头部姿势被馈送到眼神交流网络。
眼神交流网络具有解耦的编码器-解码器架构。编码器从输入的眼部补丁以及一组特征(也称为嵌入)中估计注视角度。基于这些嵌入,解码器执行输入补丁中注视方向的重定向,使面部朝前看。
管线的最后阶段涉及使用逆变换将眼部补丁融合回原始视频帧中。有关该模型的更多详细信息,请访问此处。
立即试用#
请访问此链接试用 NVIDIA Maxine 眼神交流 NIM。此外,访问Try API 功能,无需托管自己的服务器即可体验 NVIDIA Maxine 眼神交流 NIM API,因为它利用了 NVIDIA 云函数后端。