概述#

NVIDIA Maxine 眼神交流 NIM 利用最先进的 AI 模型，实时动态地将用户的眼睛位置重定向到摄像头，以模拟自然的眼神交流并增强远程数字互动。NVIDIA Maxine 眼神交流 NIM 模型构建于 NVIDIA 软件平台之上，整合了 CUDA、TensorRT 和 Triton，提供开箱即用的 GPU 加速。

架构#

NVIDIA Maxine 眼神交流在眼睛周围的感兴趣区域（也称为眼部补丁）上运行。眼部补丁通过 NVIDIA Maxine 人脸追踪管线从视频帧中提取，该管线计算视频帧的 2D 面部地标和 6DOF 头部姿势。然后，此头部姿势被馈送到眼神交流网络。

眼神交流网络具有解耦的编码器-解码器架构。编码器从输入的眼部补丁以及一组特征（也称为嵌入）中估计注视角度。基于这些嵌入，解码器执行输入补丁中注视方向的重定向，使面部朝前看。

管线的最后阶段涉及使用逆变换将眼部补丁融合回原始视频帧中。有关该模型的更多详细信息，请访问此处。

立即试用#

请访问此链接试用 NVIDIA Maxine 眼神交流 NIM。此外，访问Try API 功能，无需托管自己的服务器即可体验 NVIDIA Maxine 眼神交流 NIM API，因为它利用了 NVIDIA 云函数后端。