DOCA 文档 v2.10.0

已知问题

参考

描述

4297489

描述:由于 DPA 和主机库之间的不兼容性,将 DOCA 更新到较新版本后,必须重新编译 DPA 设备应用程序。

解决方法:不适用

关键词:DPA;主机库;更新

报告版本:2.10.0

4287011

描述:禁用 OVS CT(使用 ovs-vsctl set o . other_config:hw-offload-ct-size=0)并尝试卸载 CT 规则不受支持,可能会导致 OVS 崩溃。

解决方法:不适用

关键词:OVS

报告版本:2.10.0

4270602

描述:当禁用安全启动时,UEFI/ATF 固件不会作为 Linux 标准工具流程的一部分进行升级。

解决方法:删除 PK 密钥并再次启动 UEFI/ATF 固件升级。

要删除 PK 密钥,请使用 UEFI 菜单导航至 Device Manager → Secure Boot Configuration → Custom Secure Boot Options → PK Options → Delete Signature。

关键词:UEFI/ATF;PK;安全启动;EFI Capsule Authentication

报告版本:2.10.0

4200690

描述:fTPM 可信应用程序仅使用开发密钥进行测试签名(即,不安全)。

解决方法:不适用

关键词:fTPM over OP-TEE

报告版本:2.10.0

3987526

描述:不支持带有 sFlow 的 OVS-DOCA 计量卸载,可能会导致 OVS 应用程序崩溃。

解决方法:不适用

关键词:OVS-DOCA;计量;sFlow

报告版本:2.9.0

不适用

描述:使用 DPA 的应用程序可能无法与旧版本固件一起使用。

解决方法:完全升级所有 DOCA 2.9.0 组件,包括固件(即 doca-host 和 BF-Bundle)。

关键词:DPA;向后兼容性

报告版本:2.9.0

不适用

描述:使用 FlexIO SDK API 的应用程序在运行时可能缺少符号。

解决方法:使用 DOCA 2.9.0 版本重新编译基于 FlexIO 的应用程序。

关键词:FlexIO;向后兼容性

报告版本:2.9.0

4095728

描述:损坏的 create repo 会导致 doca-kernel repo 不包含 repo 数据。

解决方法:如果在安装 doca-kernel repo 后 repo 数据丢失,请运行 createrepo --help。如果未生成输出,则 createrepo 已损坏,必须删除并重新安装。

关键词:内核;repo

报告版本:2.9.0

4049034

描述:在 openEuler 22.03 SP3 和 openEuler 20.03 SP1 上,BFB 安装后无法执行 yum update。

解决方法:要对 openEuler 22.03 SP3 和 openEuler 20.03 SP1 执行 yum update,请根据用例按照以下步骤操作

  1. 要仅更新 DOCA,请禁用所有 repo

    复制
    已复制!
                

    dnf --disablerepo='*' --enablerepo='kubernetes,doca' -y update

  2. 要更新 OS 组件,请使用以下选项之一排除 rdma-core

    • 选项 1 – 从 dnf.conf 中禁用 rdma-core,使用 excludepkgs=rdma-core*oe2203sp3*

    • 选项 2 – 从 OS 下的 openEuler.repo 文件中禁用 rdma-core 以及所有内容,使用 exlude=rdma-core*

    • 选项 3 – 运行

      复制
      已复制!
                  

      yum update -x rdma-core

关键词:openEuler

报告版本:2.9.0

4046180

描述:在 doca_telemetry_diag 中,需要 NodePCIe indexDepth 参数的 PCIe 数据 ID,唯一有效的值为 0、0、0。

解决方法:不适用

关键词:DOCA Telemetry

报告版本:2.9.0

4129715

描述:当使用带有 "native" arch 标志的 GCC 编译 Rocky 9.2 时,可能会失败。

关键词:升级到工具集 13 (gcc 13)。

关键词:Linux;GCC

报告版本:2.9.0

4035553

描述:oper_sample_period 并不总是反映正确的采样周期。在某些情况下,它将反映 admin_sample_period

解决方法:不适用

关键词:核心

报告版本:2.8.0

4023257

描述:如果 RDMA 示例在启用内存清理器的情况下编译,则在使用 RDMA CM 标志运行示例以及在服务器之前运行客户端时,会打印 “read memory leak” 错误。

解决方法:确保在 RDMA 客户端之前启动 RDMA 服务器。

关键词:DOCA RDMA;示例

报告版本:2.8.0

4021752

4021748

描述:在所有 RDMA 示例中,如果在以下任何函数中发生错误

  • 导出 RDMA/MMAP/Sync 事件

  • 连接 RDMA

  • 写入或读取描述符

会打印错误,但示例会继续执行,并且可能

  1. 稍后失败,或无限期地处于忙等待状态;和/或

  2. 导致访问未知地址,从而导致地址清理器违规。

解决方法 1:任一

  • 按照错误日志验证相关函数中是否发生任何错误。如果发生错误,则停止示例。

  • 在本地修复问题。

解决方法 2:如果相关函数中发生错误,则应忽略提到的地址清理器违规。

关键词:DOCA RDMA;示例

报告版本:2.8.0

4022563

描述:不支持启用 E2E 的 OVS-DOCA 连接跟踪。

解决方法:不适用

关键词:OVS-DPDK;连接跟踪;E2E

报告版本:2.8.0

3837255

描述:当从主机操作系统运行 Arm 关闭时,预计会收到消息 -E- Failed to send Register MRSI。此消息应被忽略。

解决方法:在重新启动主机之前等待 2 分钟。在继续主机操作系统重新启动之前,建议从 BlueField BMC 查询 BlueField Arm 内核的运行状态,以验证是否已达到关闭状态。运行以下命令

复制
已复制!
            

ipmitool -C 17 -I lanplus -H <bmc_ip> -U root -P <password> raw 0x32 0xA3

预期输出为 "06"

关键词:主机操作系统;重新启动;错误

报告版本:2.7.0

3844705

描述:在 OpenEuler 20.03 中,Linux 内核版本 4.19.90 受问题影响,该问题会影响 BlueField eMMC 设备的 discard/trim 功能,这可能会导致 BlueField eMMC 的性能随时间推移而降低。

解决方法:升级到 Linux 内核版本 5.10 或更高版本。

关键词:eMMC discard;trim 功能

报告版本:2.7.0

3877725

描述:在 BlueField-3 上以 NIC 模式安装 BFB 期间,RShim 日志中添加了太多信息,导致 RShim 日志被填满,从而导致 Linux 安装进度日志未出现在 RShim 日志中。

复制
已复制!
            

echo "DISPLAY_LEVEL 2" > /dev/rshim0/misc cat /dev/rshim0/misc

解决方法:监控 BlueField-3 Arm 的 UART 控制台,以检查 NIC 模式的 BFB 安装是否已完成。

复制
已复制!
            

[13:58:39] INFO: Installation finished ... [14:01:53] INFO: Rebooting...

关键词:NIC 模式;BFB 安装

报告版本:2.7.0

3855702

描述:在硬件中尝试从转向级别跳转到较低级别的软件转向在低于 48.x 的 rdma-core 上不受支持。

解决方法:不适用

关键词:RDMA;SWS

报告版本:2.7.0

3855485

描述:当启用 PCI_SWITCH_EMULATION_ENABLE NVconfig 时,mlx 设备以及可能的 RShim 设备会消失。此外,使用 dmesg 查看内核日志会显示以下消息

复制
已复制!
            

pci 0000:29:00.0: BAR 0: no space for [mem size 0x0200 0000 64bit pref] pci 0000:29:00.0: BAR 2: no space for [mem size 0x0080 0000 64bit pref] ...

解决方法:不适用

关键词:NVconfig;RShim;dmsg

报告版本:2.7.0

3831230

描述:在 OpenEuler 20.03 中,Linux 内核版本 4.19.90 受问题影响,该问题会影响 BlueField eMMC 设备的 discard/trim 功能,这可能会导致 BlueField eMMC 的性能随时间推移而降低。

解决方法:升级到 Linux 内核版本 5.10 或更高版本。

关键词:eMMC discard;trim 功能

报告版本:2.7.0

3743879

描述:在运行 RShim 驱动程序且不支持 INTx 的服务器上,mlxfwreset 可能会超时。会打印以下错误消息:BF reset flow encountered a failure due to a reset state error of negotiation timeout

解决方法:在 /etc/rshim.conf 中设置 PCIE_HAS_VFIO=0PCIE_HAS_UIO=0,然后重新启动 RShim 驱动程序。然后重新运行 mlxfwreset 命令。

如果主机 Linux 内核锁定已启用,则在 mlxfwreset 之前手动解除绑定 RShim 驱动程序,并在 mlxfwreset 之后重新绑定它

复制
已复制!
            

echo "DROP_MODE 1" > /dev/rshim0/misc mlxfwreset <arguments> echo "DROP_MODE 0" > /dev/rshim0/misc

关键词:超时;mlxfwreset;INTx

报告版本:2.7.0

3678069

描述:如果将 BlueField 与 NVMe 和 mmcbld 一起使用,并配置为从 mmcblk 启动,则用户必须创建 bf.cfg 文件,其中包含 device=/dev/mmcblk0,然后正常安装 *.bfb

解决方法:不适用

关键词:NVMe

报告版本:2.5.0

3680538

描述:当使用 strongSwan 或 OVS-IPsec(如NVIDIA BlueField DPU BSP中所述)时,IPSec Rx 数据路径不会卸载到硬件,而是在 Arm 内核上运行的软件中发生。因此,带宽性能非常低。

解决方法:不适用

关键词:IPsec

报告版本:2.5.0

不适用

描述:执行单元分区仍未实现,将在未来版本中添加。

解决方法:不适用

关键词:EU 工具

报告版本:2.5.0

3666160

描述:当 mlxconfig PF_TOTAL_SF>1700 时,使用 bfb-install 安装 BFB 会立即触发服务器重启。

解决方法:将 PF_TOTAL_SF 更改为 0,执行正常关机,断电重启,然后安装 BFB。

关键词:SF;PF_TOTAL_SF;BFB 安装

报告版本:2.2.1

3594836

描述:当以高速率启用 Flex IO SDK 跟踪器时,可能会发生处理速度减慢和/或某些跟踪丢失的情况。

解决方法:将跟踪保持在每秒约 1M 个跟踪以内,以避免明显的处理速度减慢。将跟踪器用于调试目的,并考虑默认禁用它。

关键词:Tracer FlexIO

报告版本:2.2.1

3592080

描述:当在 DPU 模式下的主机上使用 UEK8 时,在主机上创建 VF 会消耗 BlueField 上约 100MB 的内存

解决方法:不适用

关键词:UEK;VF

报告版本:2.2.1

3546202

描述:在重新启动运行 Rocky Linux 8.6 BFB 的 BlueField-3 DPU 后,内核日志显示以下错误

复制
已复制!
            

[    3.787135] mlxbf_gige MLNXBF17:00: Error getting PHY irq. Use polling instead

此消息表明以太网驱动程序在所有方面都将正常运行,只是启用了 PHY 轮询。

解决方法:不适用

关键词:Linux;PHY;内核

报告版本:2.2.0

3566042

描述:NVIDIA 融合加速器上的 GPU-HOST 模式不支持 Virtio 热插拔。

解决方法:不适用

关键词:Virtio;融合加速器

报告版本:2.2.0

3546474

描述:由于 UEFI 启动条目中的 MAC 地址无效,通过 ConnectX 接口进行 PXE 启动可能无法正常工作。

解决方法:在 BlueField 上,创建包含相关 PXE 启动条目的 /etc/bf.cfg 文件,然后运行命令 bfcfg

关键词:PXE;启动;MAC

报告版本:2.2.0

3561723

描述:在 NVIDIA 融合加速器上运行 mlxfwreset sync 1 可能会报告为受支持,但实际上并非如此。执行重置将失败。

解决方法:不适用

关键词:mlxfwreset

报告版本:2.2.0

3306489

描述:当执行长期测试(例如,mlxfwreset、DPU 重新启动、刻录新的 BFB)时,运行 Intel CPU 的主机可能会观察到与 “CPU 0: Machine Check Exception” 相关的错误。

解决方法:将 intel_idle.max_cstate=1 条目添加到内核命令行。

关键词:长期运行;mlxfwreset;DPU 重新启动

报告版本:2.2.0

3534219

描述:在 BlueField-3 设备上,从 DOCA 2.2.0 到 32.37.1306(或更低版本),当执行部分 Arm 重置(例如,Arm 重新启动;BFB 推送;mlxfwreset)时,主机崩溃。

解决方法:在降级固件之前

  1. 运行

    复制
    已复制!
                

    echo 0 > /sys/bus/platform/drivers/mlxbf-bootctl/large_icm

  2. 重新启动 Arm。

关键词:BlueField-3;降级

报告版本:2.2.0

3462630

当尝试在启用 UEFI 安全启动时执行 PXE 安装时,可能会观察到以下错误消息

复制
已复制!
            

error: shim_lock protocol not found. error: you need to load the kernel first.

解决方法:从 Ubuntu 网站下载 Grub EFI 二进制文件。有关 Ubuntu UEFI 安全启动 PXE 启动的更多信息,请访问 Ubuntu 官方网站。

关键词:PXE;UEFI 安全启动

报告版本:2.0.2

3448841

描述:在运行 CentOS 8.2 时,switchdev 以太网 BlueField 在 “共享” RDMA 网络命名空间模式下运行,而不是 “独占” 模式。

解决方法:使用 ib_core 模块参数 netns_mode=0。例如

复制
已复制!
            

echo "options ib_core netns_mode=0" >> /etc/modprobe.d/mlnx-bf.conf

关键词:RDMA;隔离;Net NS

报告版本:2.0.2

2706803

描述:当配置 NVMe 控制器、SoC 管理控制器和 DMA 控制器时,VF 的最大数量限制为 124。

解决方法:不适用

关键词:VF;限制

报告版本:2.0.2

3273435

描述:在 NIC 和 DPU 模式之间更改操作模式会导致主机驱动程序的功能不同,这可能会导致意外行为。

解决方法:重新加载主机驱动程序或重新启动主机。

关键词:操作模式;驱动程序

报告版本:2.0.2

3264749

描述:在 Rocky 和 CentOS 8.2 inbox-kernel BFB 中,RegEx 需要以下额外的巨页配置才能正常运行

复制
已复制!
            

sudo hugeadm --pool-pages-min DEFAULT:2048M sudo systemctl start mlx-regex.service systemctl status mlx-regex.service

如果这些命令已成功执行,您应该在输出的最后一行看到 active (running)

解决方法:不适用

关键词:RegEx;hugepages

报告版本:1.5.1

3240153

描述:DOCA 内核支持仅在非默认内核上有效。

解决方法:不适用

关键词:内核

报告版本:1.5.0

3217627

描述:doca_devinfo_rep_list_create API 在主机上返回成功,而不是 Operation not supported

解决方法:不适用

关键词:DOCA core;InfiniBand

报告版本:1.5.0

参考

描述

4155701

描述:当将 xfrm 状态卸载到硬件时,卸载设备将链接到 skb 的 secpath。如果 skb 被释放或延迟,则取消注册 netdevice 操作可能会挂起,因为 netdevice 仍在被引用计数。

解决方法:当 netdevice 取消注册时,从 xfrm 状态中删除 netdevice。

关键词:IPSec Crypto Offload

报告版本:2.10.0

解决方法: 不适用

关键词: 主机权限

发现版本32.41.1000

3636631

描述: 当将 BlueField-3 Arm 内核配置为 PCIe 根联合体时,所有非 mlx5 设备必须始终将 BlueField-3 的 IOMMU 设置为禁用或直通模式。打开 IOMMU “ON” 需要在驱动程序中特殊处理中断或使用轮询。如需进一步帮助,请联系 NVIDIA 支持

解决方法: 不适用

关键词: IOMMU

发现版本32.39.2048

3614529

描述: SKU B3220 中支持的 DDR5 链路速度为 5200 MT/s。

解决方法: 不适用

关键词: DDR5 链路速度

发现版本32.39.2048

3728450

描述: 当前不支持具有挂起映像的 SW_RESET。

解决方法: 不适用

关键词: SW_RESET

发现版本32.39.2048

3614288

描述: 有时,当从未知方向执行热插拔时,设备可能会挂起。

解决方法: 不适用

关键词: 热插拔操作

发现版本32.39.2048

-

描述: I2C 时钟下降时间低于 I2C 总线规范中定义的 12ns 最小值。

有关更多信息,请参阅 I²C 总线规范,版本 7.0,2021 年 10 月,https://www.i2c-bus.org/

解决方法: 不适用

关键词: I2C 时钟

发现版本32.39.2048

3439438

描述: 当以 400G 速度连接到高速流量生成器时,链路建立时间可能长达 3 分钟。

解决方法: 不适用

关键词: 400G 链路建立时间

发现版本32.38.1002

3534128

描述: 如果闪存上有挂起的映像,则外部闪存访问(例如使用 MFT 工具的闪存读取)将失败。

解决方法: 不适用

关键词: 闪存访问

发现版本32.38.1002

3534219

描述: 在 BlueField-3 设备上,从 DOCA 2.2.0 到 32.37.1306(或更低版本),当执行部分 Arm 重置(例如,Arm 重新启动;BFB 推送;mlxfwreset)时,主机崩溃。

解决方法: 在降级固件之前,执行

  • echo 0 > /sys/bus/platform/drivers/mlxbf-bootctl/large_icm

  • Arm 重新启动

关键词: BlueField-3;降级

发现版本32.38.1002

3547022

描述: 当卸载外部主机上的网络驱动程序时,sync1 重置可能仍报告为“受支持”,但实际上并非如此。因此,启动重置流程可能会在几分钟后导致重置失败。

解决方法: 不适用

关键词: Sync1 重置

发现版本32.38.1002

3439438

描述: 当以 400G 速度连接到 Spirent 交换机时,链路建立时间可能长达 3 分钟。

解决方法: 不适用

关键词: Spirent,400G,链路建立时间

发现版本 32.38.1002

3178339

描述: PCIe PML1 已禁用。

解决方法: 不适用

关键词: PCIe PML1

发现版本 32.38.1002

3525865

描述: 如果在重置正在进行时加载驱动程序,则可能会观察到意外的系统行为。

解决方法: 不适用

关键词: Sync 1 重置,固件重置

发现版本 32.38.1002

3275394

描述: 当在基于 AMD Genoa 的系统上执行 PCIe 链路二级总线重置、禁用/启用或 mlxfwreset 时,由于 PCIe 接收器端接配置错误,设备链接建立时间比预期长。

解决方法: 不适用

关键词: PCIe

发现版本32.37.1306

2878841

描述: 如果在 mkey 中配置了 QPN 字段(因为它仅允许给定的 QP 使用此 Mkey),则固件回滚流将失败,因为固件回滚流依赖于使用 mkey 的内部 QP。

解决方法: 不适用

关键词: 签名重传流

发现版本32.37.1306

3412847

描述: 当前不支持 Socket-Direct。

解决方法: 不适用

关键词: Socket-Direct

发现版本32.37.1306

参考

问题

2169950

描述:当数据包上发生解封装时,FCS 指示计算不正确。

解决方法:不适用

关键词:FCS

发现版本:24.42.1000

3754913

描述:当前不支持 PHYless 重置。

解决方法:不适用

关键词:PHYless 重置

发现版本:24.40.1000

3525865

描述:如果在重置正在进行时加载驱动程序,则可能会观察到意外的系统行为。

解决方法:不适用

关键词:Sync 1 重置,固件重置

发现版本:24.39.2048

3547022

描述:当 tx_port_ts 设置为 "true" 时,由于某些硬件 Rx 时间戳错误中可用的 Tx 时间戳补偿机制,当使用时间戳同步设备时钟时,会发生对称错误且没有时钟偏移。

这也可能导致在使用时间戳进行延迟测量时出错(例如,PTP 守护程序报告的延迟测量),甚至在某些情况下出现负延迟测量。

解决方法:不适用

关键词:PTP 路径延迟

发现版本:24.38.1002

3547022

描述:当卸载外部主机上的网络驱动程序时,sync1 重置可能仍报告为“受支持”,但实际上并非如此。因此,启动重置流程可能会在几分钟后导致重置失败。

解决方法:不适用

关键词:Sync1 重置

发现版本:24.38.1002

3457472

描述:当前禁用使用 vhca_resource_manager 的宽松排序 (RO) 功能 (relaxed_ordering_read_pci_enabled=0) 无效。

解决方法:不适用

关键词:宽松排序

发现版本:24.37.1300

3296463

描述:fwreset 当前仅在 PCI Gen 4 设备上受支持。

解决方法:不适用

关键词:fwreset,PCI Gen4

发现版本:24.37.1300

2878841

描述:如果 mkey 中配置了 QPN 字段(因为它仅允许给定的 QP 使用此 Mkey),则固件回滚流将失败,因为固件回滚流依赖于使用 mkey 的内部 QP。

解决方法:不适用

关键词:签名重传流

发现版本:24.37.1300

3329109

描述:MFS1S50-H003E 电缆在用作分支电缆时仅支持 HDR 速率。

解决方法:不适用

关键词:HDR,分支电缆,MFS1S50-H003E

发现版本:24.37.1300

3267506

描述:CRC 包含在流量字节计数器中,作为端口字节计数器。

解决方法:不适用

关键词:计数器,CRC

发现版本:24.35.2000

3141072

描述:通过 QEEC mlxreg 的 “max_shaper_rate” 配置查询返回转换为硬件粒度的值。

解决方法:不适用

关键词:RX 速率限制器,多主机

发现版本:24.34.1002

2870970

描述:GTP 封装(flex parser profile 3)仅限于 NIC 域。

在 FDB 域中封装将在 GTP 标头中呈现 0 大小的长度。

解决方法:不适用

关键词:GTP 封装

发现版本:24.34.1002

2899026

2853408

描述:某些预操作系统环境在启动阶段感应到热插拔操作时可能会失败。

解决方法:不适用

关键词:BIOS;热插拔;Virtio-net

发现版本:24.33.1048

2870213

描述:将 PCI_SWITCH_EMULATION_NUM_PORT 配置为 32 后,服务器在断电重启后不会恢复。

解决方法:不适用

关键词:VirtIO-net;断电重启

发现版本:24.33.1048

2855592

描述:当在 25GbE 速度下使用第三方设备(例如 Paragon)时,25GbE 速度必须配置为强制模式。

解决方法:不适用

关键词:强制模式,第三方设备,25GbE

发现版本:24.33.1048

2850003

描述:有时,当提升逻辑链路时,链路恢复计数器会增加 1。

解决方法:不适用

关键词:链路恢复计数器

发现版本:24.33.1048

2616755

描述:RX RDMA 流表不支持 IPoIB 的转发操作。

解决方法:不适用

关键词:转向,IPoIB

发现版本:24.33.1048

© 版权所有 2025 NVIDIA。 上次更新时间:2025 年 2 月 11 日。