视觉和 AI 分析#
Tokkio Vision 利用实时计算机视觉处理来促进与数字头像的高度逼真互动。通过实时分析视频流,Tokkio Vision 增强了头像准确响应用户的能力,创造更沉浸和引人入胜的体验。
架构可以总结如下

- 流式传输管线
流式传输管线从用户的网络摄像头捕获视频并将其传输到云端。
- Tokkio Vision 管线由 3 个微服务定义
视觉 AI 微服务 执行视频推理,从视频流中提取身体姿势和面部边界框。
eMDX 微服务 分析来自视觉 AI 微服务的元数据,提供关于用户存在和注意力水平的警报。
eMDX API 微服务 管理元数据的持久性和检索。
- 音频管线
聊天控制器操作服务器是一个音频推理微服务。它执行语音活动检测、ASR 和 TTS,并提供符合 UMIM 的事件
- 交互管理
Tokkio UMIM 操作服务器 确保符合 UMIM 事件,从而促进 Tokkio 内这些事件的无缝集成和管理
聊天引擎 通过响应视觉和语音用户事件并使用 UMIM 操作事件执行 Bot 操作来驱动头像交互。