视觉和 AI 分析#

Tokkio Vision 利用实时计算机视觉处理来促进与数字头像的高度逼真互动。通过实时分析视频流，Tokkio Vision 增强了头像准确响应用户的能力，创造更沉浸和引人入胜的体验。

架构可以总结如下

流式传输管线
- 流式传输管线从用户的网络摄像头捕获视频并将其传输到云端。
Tokkio Vision 管线由 3 个微服务定义
- 视觉 AI 微服务 执行视频推理，从视频流中提取身体姿势和面部边界框。
- eMDX 微服务 分析来自视觉 AI 微服务的元数据，提供关于用户存在和注意力水平的警报。
- eMDX API 微服务 管理元数据的持久性和检索。
音频管线
- 聊天控制器操作服务器是一个音频推理微服务。它执行语音活动检测、ASR 和 TTS，并提供符合 UMIM 的事件
交互管理
- Tokkio UMIM 操作服务器 确保符合 UMIM 事件，从而促进 Tokkio 内这些事件的无缝集成和管理
- 聊天引擎 通过响应视觉和语音用户事件并使用 UMIM 操作事件执行 Bot 操作来驱动头像交互。