DOCA 文档 v2.10.0

DOCA BlueMan 服务指南

本指南介绍如何在 NVIDIA® BlueField® DPU 之上使用 DOCA BlueMan 服务。

DOCA BlueMan 在 DPU 中作为独立的 Web 仪表板运行,并将所有基本信息、运行状况和遥测计数器整合到单个界面中。

BlueMan 提供的所有信息均从 DOCA 遥测服务 (DTS) 收集,从 DTS 版本 1.11.1-doca1.5.1 开始。

blueman-health-version-1-modificationdate-1734472707260-api-v2.png

  • BlueField 镜像版本 3.9.3.1 或更高版本

  • DTS 和 DOCA 特权执行器 (DPE) 守护程序必须已启动并正在运行

验证 DTS 状态

BlueMan 提供的所有信息均从 DTS 收集。

验证 DTS Pod 的状态是否为 ready

复制
已复制!
            

$ crictl pods --name doca-telemetry-service

验证 DTS 容器的状态是否为 running

复制
已复制!
            

$ crictl ps --name doca-telemetry-service


验证 DPE 状态

DTS 为 BlueMan 收集的所有信息均来自 DPE 守护程序。

验证 DPE 守护程序是否为 active

复制
已复制!
            

$ systemctl is-active dpe.service active

如果守护程序处于非活动状态,请通过启动 dpe.service 激活它

复制
已复制!
            

$ systemctl start dpe.service


有关在 BlueField DPU 之上部署 DOCA 容器的信息,请参阅 NVIDIA DOCA 容器部署指南

NGC 上的 DOCA 服务

BlueMan 在 NGC(NVIDIA 的容器目录)上可用。服务特定的配置步骤和部署说明可以在服务的容器页面下找到。

默认部署 – BlueField BSP

BlueMan 服务位于 /opt/mellanox/doca/services/blueman / 下。

以下是 BlueMan 目录下文件的列表

复制
已复制!
            

doca_blueman_fe_service_<version>-doca<version>_arm64.tar doca_blueman_conv_service_<version>-doca<version>_arm64.tar doca_blueman_standalone.yaml bring_up_doca_blueman_service.sh

启用 BlueMan 服务

使用脚本

运行 bring_up_doca_blueman_service.sh

复制
已复制!
            

$ chmod +x /opt/mellanox/doca/services/blueman/bring_up_doca_blueman_service.sh $ /opt/mellanox/doca/services/blueman/bring_up_doca_blueman_service.sh


手动步骤

  1. 将镜像导入到 crictl images

    复制
    已复制!
                

    $ cd /opt/mellanox/doca/services/blueman/ $ ctr --namespace k8s.io image import doca_blueman_fe_service_<version>-doca<version>_arm64.tar  $ ctr --namespace k8s.io image import doca_blueman_conv_service_<version>-doca<version>_arm64.tar 

  2. 验证 DPE 守护程序是否处于活动状态

    复制
    已复制!
                

    $ systemctl is-active dpe.service active

    如果守护程序处于非活动状态,请通过启动 dpe.service 激活它

    复制
    已复制!
                

    $ systemctl start dpe.service

  3. blueman_standalone.yaml 复制到 /etc/kubelet.d/

    复制
    已复制!
                

    $ cp doca_blueman_standalone.yaml /etc/kubelet.d/

验证部署成功

  1. 验证 DPE 守护程序是否处于活动状态

    复制
    已复制!
                

    $ systemctl is-active dpe.service

  2. 验证 DTS 容器的状态是否为 running

    复制
    已复制!
                

    $ crictl ps --name doca-telemetry-service

  3. 验证 BlueMan 服务容器的状态是否为 running

    复制
    已复制!
                

    $ crictl ps --name doca-blueman-fe $ crictl ps --name doca-blueman-conv

配置

BlueMan 后端的配置位于 /opt/mellanox/doca/services/telemetry/config/blueman_config.ini 下。用户可以与 blueman_config.ini 文件交互,该文件包含“运行状况”页面中使用的“通过”、“警告”和“失败”类别的默认范围值。更改这些值将在 60 秒内反映在 BlueMan 网页中。

blueman_config.ini 示例

复制
已复制!
            

;Health Cpu usages Pass, warning, Failed [Health:CPU_Usages:Pass] range = 0,80 [Health:CPU_Usages:Warning] range = 80,90 [Health:CPU_Usages:Failed] range = 90,100


  • 信息

    • 常规信息 – 操作系统名称、内核、部件号、序列号、DOCA 版本、驱动程序、板 ID 等。

    • 已安装软件包 – DPU 上所有已安装软件包的列表,包括其版本

    • CPU 信息 – 供应商、内核、型号等。

    • FW 信息 – 所有 mlxconfig 参数,包括默认/当前/下次启动数据

    • DPU 操作模式

  • 运行状况

    • 系统服务

    • 内核模块

    • Dmesg

    • DOCA 服务

    • PF 和 OOB 的端口状态

    • 每个内核上运行的内核使用率和进程

    • 内存使用率

    • 磁盘使用率

    • 温度

  • 遥测 – 来自 DTS 的所有遥测计数器,根据表格上显示的已启用提供程序

    • 用户可以构建特定计数器的图表

要登录 BlueMan,请在与 DPU 位于同一网络的 Web 浏览器中输入 DPU 的 OOB 接口的 IP 地址 (http://<DPU_OOB_IP>)。

使用的登录凭据与用于 SSH 连接到 DPU 的凭据对相同。

blueman-login-version-1-modificationdate-1734472706893-api-v2.png

有关常规故障排除,请参阅 DOCA 故障排除

有关容器相关的故障排除,请参阅 NVIDIA DOCA 容器部署指南中的“故障排除”部分。

以下是 DOCA BlueMan 的其他故障排除提示

  • 登录页面中出现以下错误消息表示无法连接到 DPE 守护程序:“服务当前不可用。请检查服务器是否已启动并正在运行。”

    1. 重启 DPE 守护程序

      复制
      已复制!
                  

      $ systemctl restart dpe.service

    2. 按照“验证 DTS 状态”部分中的说明验证 DTS 是否已启动并正在运行。

  • 如果在登录页面中出现消息“无效凭据”,请验证用户名和密码是否与用于 SSH 连接到 DPU 的用户名和密码相同。

  • 如果以上所有配置均按预期配置,但仍无法登录,建议检查是否存在阻止连接的任何防火墙规则。

  • 对于其他问题,请检查 /var/log/syslog/var/log/doca/telemetry/blueman_service.log 日志文件。

© 版权所有 2025 NVIDIA。 上次更新时间:2025 年 2 月 12 日。