DOCA BlueMan 服务指南
本指南介绍如何在 NVIDIA® BlueField® DPU 之上使用 DOCA BlueMan 服务。
DOCA BlueMan 在 DPU 中作为独立的 Web 仪表板运行,并将所有基本信息、运行状况和遥测计数器整合到单个界面中。
BlueMan 提供的所有信息均从 DOCA 遥测服务 (DTS) 收集,从 DTS 版本 1.11.1-doca1.5.1 开始。

BlueField 镜像版本 3.9.3.1 或更高版本
DTS 和 DOCA 特权执行器 (DPE) 守护程序必须已启动并正在运行
验证 DTS 状态
BlueMan 提供的所有信息均从 DTS 收集。
验证 DTS Pod 的状态是否为 ready
$ crictl pods --name doca-telemetry-service
验证 DTS 容器的状态是否为 running
$ crictl ps
--name doca-telemetry-service
验证 DPE 状态
DTS 为 BlueMan 收集的所有信息均来自 DPE 守护程序。
验证 DPE 守护程序是否为 active
$ systemctl is-active dpe.service
active
如果守护程序处于非活动状态,请通过启动 dpe.service
激活它
$ systemctl start dpe.service
有关在 BlueField DPU 之上部署 DOCA 容器的信息,请参阅 NVIDIA DOCA 容器部署指南。
NGC 上的 DOCA 服务
BlueMan 在 NGC(NVIDIA 的容器目录)上可用。服务特定的配置步骤和部署说明可以在服务的容器页面下找到。
默认部署 – BlueField BSP
BlueMan 服务位于 /opt/mellanox/doca/services/blueman
/ 下。
以下是 BlueMan 目录下文件的列表
doca_blueman_fe_service_<version>-doca<version>_arm64.tar
doca_blueman_conv_service_<version>-doca<version>_arm64.tar
doca_blueman_standalone.yaml
bring_up_doca_blueman_service.sh
启用 BlueMan 服务
使用脚本
运行 bring_up_doca_blueman_service.sh
$ chmod
+x /opt/mellanox/doca/services/blueman/bring_up_doca_blueman_service.sh
$ /opt/mellanox/doca/services/blueman/bring_up_doca_blueman_service.sh
手动步骤
将镜像导入到 crictl images
$
cd
/opt/mellanox/doca/services/blueman/ $ ctr --namespace k8s.io imageimport
doca_blueman_fe_service_<version>-doca<version>_arm64.tar
$ ctr --namespace k8s.io imageimport
doca_blueman_conv_service_<version>-doca<version>_arm64.tar
验证 DPE 守护程序是否处于活动状态
$ systemctl is-active dpe.service active
如果守护程序处于非活动状态,请通过启动
dpe.service
激活它$ systemctl start dpe.service
将
blueman_standalone.yaml
复制到/etc/kubelet.d/
$
cp
doca_blueman_standalone.yaml /etc/kubelet.d/
验证部署成功
验证 DPE 守护程序是否处于活动状态
$ systemctl is-active dpe.service
验证 DTS 容器的状态是否为
running
$ crictl ps --name doca-telemetry-service
验证 BlueMan 服务容器的状态是否为
running
$ crictl ps --name doca-blueman-fe $ crictl ps --name doca-blueman-conv
配置
BlueMan 后端的配置位于 /opt/mellanox/doca/services/telemetry/config/blueman_config.ini
下。用户可以与 blueman_config.ini
文件交互,该文件包含“运行状况”页面中使用的“通过”、“警告”和“失败”类别的默认范围值。更改这些值将在 60 秒内反映在 BlueMan 网页中。
blueman_config.ini
示例
;Health Cpu usages Pass, warning, Failed
[Health:CPU_Usages:Pass]
range = 0
,80
[Health:CPU_Usages:Warning]
range = 80
,90
[Health:CPU_Usages:Failed]
range = 90
,100
信息
常规信息 – 操作系统名称、内核、部件号、序列号、DOCA 版本、驱动程序、板 ID 等。
已安装软件包 – DPU 上所有已安装软件包的列表,包括其版本
CPU 信息 – 供应商、内核、型号等。
FW 信息 – 所有 mlxconfig 参数,包括默认/当前/下次启动数据
DPU 操作模式
运行状况
系统服务
内核模块
Dmesg
DOCA 服务
PF 和 OOB 的端口状态
每个内核上运行的内核使用率和进程
内存使用率
磁盘使用率
温度
遥测 – 来自 DTS 的所有遥测计数器,根据表格上显示的已启用提供程序
用户可以构建特定计数器的图表
要登录 BlueMan,请在与 DPU 位于同一网络的 Web 浏览器中输入 DPU 的 OOB 接口的 IP 地址 (http://<DPU_OOB_IP>
)。
使用的登录凭据与用于 SSH 连接到 DPU 的凭据对相同。

有关常规故障排除,请参阅 DOCA 故障排除。
有关容器相关的故障排除,请参阅 NVIDIA DOCA 容器部署指南中的“故障排除”部分。
以下是 DOCA BlueMan 的其他故障排除提示
登录页面中出现以下错误消息表示无法连接到 DPE 守护程序:“服务当前不可用。请检查服务器是否已启动并正在运行。”
重启 DPE 守护程序
$ systemctl restart dpe.service
按照“验证 DTS 状态”部分中的说明验证 DTS 是否已启动并正在运行。
如果在登录页面中出现消息“无效凭据”,请验证用户名和密码是否与用于 SSH 连接到 DPU 的用户名和密码相同。
如果以上所有配置均按预期配置,但仍无法登录,建议检查是否存在阻止连接的任何防火墙规则。
对于其他问题,请检查
/var/log/syslog
和/var/log/doca/telemetry/blueman_service.log
日志文件。