视觉和 AI 分析#

Tokkio Vision 利用实时计算机视觉处理来促进与数字头像的高度逼真互动。通过实时分析视频流,Tokkio Vision 增强了头像准确响应用户的能力,创造更沉浸和引人入胜的体验。

架构可以总结如下

Architecture_Diagram
  • 流式传输管线
    • 流式传输管线从用户的网络摄像头捕获视频并将其传输到云端。

  • Tokkio Vision 管线由 3 个微服务定义
    • 视觉 AI 微服务 执行视频推理,从视频流中提取身体姿势和面部边界框。

    • eMDX 微服务 分析来自视觉 AI 微服务的元数据,提供关于用户存在和注意力水平的警报。

    • eMDX API 微服务 管理元数据的持久性和检索。

  • 音频管线
    • 聊天控制器操作服务器是一个音频推理微服务。它执行语音活动检测、ASR 和 TTS,并提供符合 UMIM 的事件

  • 交互管理
    • Tokkio UMIM 操作服务器 确保符合 UMIM 事件,从而促进 Tokkio 内这些事件的无缝集成和管理

    • 聊天引擎 通过响应视觉和语音用户事件并使用 UMIM 操作事件执行 Bot 操作来驱动头像交互。