HBN 服务发行说明
以下小节提供有关 HBN 服务的新功能、互操作性、已知问题和缺陷修复的信息。
HBN 2.5.0 提供以下新功能和更新
为 Overlay Gateways 添加了目标网络地址转换 (DNAT) 支持
添加了可配置的控制平面策略 (CoPP) 支持
为 L3 子接口添加了 ACL 支持
为 BGP 添加了初始双向转发检测 (BFD) 支持(alpha 级别)
缺陷修复
如果从之前的 HBN 版本升级,HBN 2.5.0 不包含任何影响用户的更改。
支持的 BlueField 网络平台
HBN 2.5.0 已在以下 NVIDIA® BlueField® 网络平台上验证
BlueField-2 DPU
BlueField-2 P 系列 DPU 25GbE 双端口 SFP56;PCIe Gen4 x8;启用加密;16GB 板载 DDR;1GbE OOB 管理;HHHL
BlueField-2 P 系列 DPU 25GbE 双端口 SFP56;集成 BMC;PCIe Gen4 x8;启用安全启动;启用加密;16GB 板载 DDR;1GbE OOB 管理;FHHL
BlueField-2 P 系列 DPU 25GbE 双端口 SFP56;集成 BMC;PCIe Gen4 x8;启用安全启动;启用加密;32GB 板载 DDR;1GbE OOB 管理;FHHL
BlueField-2 P 系列 DPU 100GbE 双端口 QSFP56;集成 BMC;PCIe Gen4 x16;启用安全启动;启用加密;32GB 板载 DDR;1GbE OOB 管理;FHHL
BlueField-3 DPU
BlueField-3 B3210E E 系列 FHHL DPU;100GbE(默认模式)/ HDR100 IB;双端口 QSFP112;PCIe Gen5.0 x16,带 x16 PCIe 扩展选项;16 个 Arm 内核;32GB 板载 DDR;集成 BMC;启用加密
BlueField-3 B3220 P 系列 FHHL DPU;200GbE(默认模式)/NDR200 IB;双端口 QSFP112;PCIe Gen5.0 x16,带 x16 PCIe 扩展选项;16 个 Arm 内核;32GB 板载 DDR;集成 BMC;启用加密
BlueField-3 B3240 P 系列双槽 FHHL DPU;400GbE/NDR IB(默认模式);双端口 QSFP112;PCIe Gen5.0 x16,带 x16 PCIe 扩展选项;16 个 Arm 内核;32GB 板载 DDR;集成 BMC;启用加密
BlueField-3 SuperNIC
BlueField-3 B3210L E 系列 FHHL SuperNIC,100GbE(默认模式)/HDR100 IB,双端口 QSFP112,PCIe Gen4.0 x16,8 个 Arm 内核,16GB 板载 DDR,集成 BMC,启用加密
BlueField-3 B3220L E 系列 FHHL SuperNIC,200GbE(默认模式)/NDR200 IB,双端口 QSFP112,PCIe Gen5.0 x16,8 个 Arm 内核,16GB 板载 DDR,集成 BMC,启用加密
BlueField-3 B3140L E 系列 FHHL SuperNIC,400GbE/NDR IB(默认模式),单端口 QSFP112,PCIe Gen5.0 x16,8 个 Arm 内核,16GB 板载 DDR,集成 BMC,启用加密
BlueField-3 B3140H E 系列 HHHL SuperNIC,400GbE(默认模式)/NDR IB,单端口 QSFP112,PCIe Gen5.0 x16,8 个 Arm 内核,16GB 板载 DDR,集成 BMC,启用加密
目前 HBN 不支持具有 8GB 板载 DDR 内存的 BlueField 平台。
支持的 BlueField 操作系统
HBN 2.5.0 支持 Ubuntu 22.04 操作系统上的 DOCA 2.10.0 (BSP 4.10.0)。
已验证的扩展性限制
HBN 2.5.0 已经过测试,可以维持以下最大扩展性限制
限制 | BlueField-2 | BlueField-3 | 注释 |
结构中的 VTEP 对等方(每个控制平面的 BlueField) | 8k 1 | 8k 1 | 单个 Overlay 结构中的 BlueField(VTEP)数量(在底层网络中可达) |
每个 BlueField 的 L2 VNI/Overlay 网络 | 20 | 20 | 假设每个接口都与其自己的 VLAN + L2 VNI 关联,则 L2 VXLAN 用例的结构中 L2 VNI 的总数 |
每个 BlueField 的 L3 VNI/Overlay 网络 | 20 - 最多 4K 个 VTEP 10 - 最多 8K 个 VTEP | 20 - 最多 4K 个 VTEP 10 - 最多 8K 个 VTEP | 假设每个接口都与其自己的 VLAN + L2 VNI + L3 VNI + VRF 关联,则 L3 VXLAN 用例的结构中 L3 VNI 的总数 |
每个单 L2 VNI 网络的 BlueField | 8k | 8k | 配置了相同 L2 VNI 的 DPU 总数(3 个真实 DPU,2000 个模拟 VTEP) |
每个单 L3 VNI 网络的 BlueField | 8k | 8k | 配置了相同 L3 VNI 的 DPU 总数(3 个真实 DPU,2000 个模拟 VTEP) |
每个 BlueField 的最大本地 MAC/ARP 条目数 | 20 | 20 | 从 DPU 上的主机学习到的最大 MAC/ARP 条目总数 |
每个 BlueField 的最大本地 BGP 路由数 | 200 | 200 | 主机向 BlueField 公告的最大 BGP 路由总数(与主机 BGP 对等互连):100 个 IPv4 + 100 个 IPv6 |
最大远程 L3 LPM 路由数(底层网络) | 8k | 8k | 每个 BlueField 的 IPv4 或 IPv6 底层网络 LPM 路由(默认路由 + 主机路由 + LPM) |
EVPN 类型 2 条目的最大数量 | 16K | 16k | 存储在单个 BlueField 上的计算对等方的远程 Overlay MAC/IP 条目(L2 EVPN 用例) |
EVPN 类型 5 条目的最大数量 | 32K | 80K | 存储在单个 BlueField 上的计算对等方的远程 Overlay L3 LPM 条目(L3 EVPN 用例) |
ECMP 下一跳组中的最大下一跳数 | 16 | 16 | ECMP 下一跳组中的最大下一跳数(对于 Overlay ECMP) |
主机侧的最大 PF 数 | 2 | 2 | 主机可见的 PF 总数 |
主机侧的最大 VF 数 | 16 | 16 | 主机上创建的 VF 总数 |
BlueField 侧的最大 SF 数 | 2 | 2 | 在 BlueField Arm 上创建的 SF 设备总数 |
下表列出了此 HBN 版本中的已知问题和限制。
参考 | 描述 |
4200335 | 描述:DHCP 问题可能导致 DPU 上的 resolve.conf 不完整。后果可能是 DNS 解析失败和/或主机名设置为“localhost”。 |
解决方法:重启。 | |
关键词:DPU、DHCP、resolve.conf、主机名、localhost、DNS | |
报告于 HBN 版本:2.5.0 | |
4196880 | 描述:DHCP 问题可能导致 HBN 容器上的 resolve.conf 不完整。后果可能是 DNS 解析失败和/或主机名设置为“localhost”。 |
解决方法:以下是可能的解决方法列表。
| |
关键词:DHCP、resolve.conf、主机名、localhost、DNS | |
报告于 HBN 版本:2.5.0 | |
4257285 | 描述:使用 HBN 转发的 DPU 和外部世界之间的 ARP 数据包未进行硬件卸载。 |
解决方法:不适用 | |
关键词:ARP、外部世界、硬件卸载 | |
报告于 HBN 版本:2.5.0 | |
4279243 | 描述:OVS 不会将具有单播目标 MAC 地址的 IPv6 邻居公告数据包 punt 到 CPU,因此只要端点保持静默(导致发往端点的流量被软件转发),VTEP 上可能无法学习到端点 MAC 地址。这仅适用于完全静默的终端主机,这些主机不发起任何 IPv6 邻居请求消息。一旦静默端主机发起流量,流量将通过硬件转发。仅当端点从不发起任何流量,而仅发送 IPv6 邻居公告作为对 IPv6 邻居请求的响应时,此问题才会持续存在(罕见情况) |
解决方法:用户需要在 DPU 上添加以下 OVS 规则 sudo ovs-ofctl add-flow br-hbn 'table=3,priority=100,icmp6,icmp_type=136 actions=resubmit(,98)' 此规则会将 IPv6 NA 数据包 punt 到 HBN 检查规则是否存在 sudo ovs-ofctl dump-flows br-hbn --color --names table=3 | |
关键词:IPV6 ND(邻居发现)、NA(邻居公告)、静默主机 | |
报告于 HBN 版本:2.5.0 | |
4255708 | 描述:当多个端口配置为桥接的一部分,然后重新配置为 L3 接口时,只有端口之一(先前从属于桥接的第一个端口)在 nl2doca 中被正确地重新编程为 L3 接口。其余端口继续在 nl2doca 中显示为桥接端口。 |
解决方法:在取消配置桥接端口之后以及将这些端口重新配置为 L3 接口之前,重启 HBN 容器 | |
关键词:桥接端口、L3 端口 | |
报告于 HBN 版本:2.5.0 | |
4257285 | 描述:使用 HBN 转发的 DPU 和外部世界之间的 ARP 数据包未进行硬件卸载。 |
解决方法:不适用 | |
关键词:ARP | |
报告于 HBN 版本:2.5.0 | |
4214631 | 描述:如果 HBN 配置为 L3 evpn,则来自主机侧的目标端口为 4789 的数据包将被丢弃,从而导致 L3EVPN 场景中客户/租户封装的 VxLan 流量被丢弃。 这会阻止在 L3 evpn 场景中通过 hbn vxlan overlay 运行 vxlan underlay。 |
解决方法:不适用 | |
关键词:4789、vxlan overlay、vxlan underlay | |
报告于 HBN 版本:2.5.0 | |
4193046 | 描述:当 BlueField 上启用 LLDP 时,当 HBN 服务正在运行时,它可能无法在上行链路端口上工作。如果 LLDP 在没有任何接口过滤器配置的情况下运行,则可能会发生这种情况。 |
解决方法:使用配置文件
如果在 LLDP 服务运行时更改了此配置文件,则必须使用 | |
关键词:LLDP | |
报告于 HBN 版本:2.4.1 | |
4200335 | 描述:有时,如果 |
解决方法:不适用 | |
关键词:DNS;OOB 连接 | |
报告于 HBN 版本:2.4.1 | |
4011688 | 描述:在 HBN POD 重启期间会生成以下严重错误消息。可以安全地忽略它。
|
解决方法:不适用 | |
关键词:日志 | |
报告于 HBN 版本:2.4.0 | |
4098158 | 描述:当使用默认 BGP 计时器时,OVS 重启可能会由于 BGP 对等互连重置而导致流量丢失时间延长。 |
解决方法:不适用 | |
关键词:BGP;OVS | |
报告于 HBN 版本:2.4.0 | |
3743942 | 描述:当在容器运行时修改 HBN YAML 文件(即 |
解决方法:如果容器在 init-sfs 中挂起超过 1 分钟,请重新加载 DPU。 | |
关键词:挂起;容器 | |
报告于 HBN 版本:2.3.0 | |
3961387 | 描述:不支持使用 nv CLI/API 更改 NVUE REST API 的端口号。以下命令不应用于更改端口号
|
解决方法:在 HBN 上,可以通过 8765 访问 NVUE(即默认端口号)。 | |
关键词:NVUE API;端口号 | |
报告于 HBN 版本:2.3.0 | |
3967748 | 描述:命令 |
解决方法:不适用 | |
关键词:REST API;nginx | |
报告于 HBN 版本:2.3.0 | |
3865633 | 描述:如果 HBN 配置为 L3 evpn,则来自主机侧的目标端口为 4789/8472 的数据包将被丢弃。 功能影响是,客户/租户封装的 VxLan 流量将在 L3EVPN 场景中被丢弃。 |
解决方法:不适用 | |
关键词:4789、8472 | |
报告于 HBN 版本:2.2.0 | |
3769309 | 描述:即使在这两个 VRF 之间启用了 VRF 路由泄漏,从 vrf-X 中本地连接的主机到 DPU/HBN 本身在 vrf-Y 中的接口 IP 地址的 ping 或其他 IP 连接也无法工作。 |
解决方法:不适用 | |
关键词:IP | |
报告于 HBN 版本:2.2.0 | |
3835295 | 描述:在主机 PF/VF 主接口上进入 HBN 服务并在同一 PF/VF 的子接口上退出的流量(反之亦然)未进行硬件卸载。同样,在一个子接口上进入 HBN 服务并在同一主机 PF/VF 的另一个子接口上退出的流量也未进行硬件卸载。 |
解决方法:不适用 | |
关键词:硬件卸载;接口 | |
报告于 HBN 版本:2.2.0 | |
3772552 | 描述:DHCP 中继网关接口 IP 地址不会自动获取分配给关联 VRF 的 IP 地址。 |
解决方法:必须显式配置网关接口 IP 地址。 | |
关键词:DHCP 中继网关;IP | |
报告于 HBN 版本:2.2.0 | |
3891542 | 描述:如果使用基于 NVUE 的路由策略(路由映射)配置将路由目标扩展社区与 EVPN 路由关联,则只能指定一个路由目标。 |
解决方法:不适用 | |
关键词:NVUE;路由目标 | |
报告于 HBN 版本:2.2.0 | |
3757686 | 描述:当 HBN 容器启动并通过 NVUE-startup 服务应用包含 DHCP 中继使用的实体(例如,接口、SVI 和 VRF)的大型配置时,DHCP 中继服务可能会进入 FATAL 状态。可以使用以下命令观察到这种情况
|
解决方法:使用命令重启处于 FATAL 状态的 DHCP 中继服务
| |
关键词:DHCP 中继;fatal;容器;重启 | |
报告于 HBN 版本:2.1.0 | |
3605486 | 描述:从 DPU 本身发出“reboot”命令后,DPU 启动时,某些主机侧接口可能保持关闭状态。 |
解决方法
| |
关键词:重启 | |
报告于 HBN 版本:1.5.0 | |
3547103 | 描述:不支持 IPv6 无状态 ACL。 |
解决方法:不适用 | |
关键词:IPv6 ACL | |
报告于 HBN 版本:1.5.0 | |
3339304 | 描述:硬件卸载流量的统计信息未反映在 HBN 容器内的 SF 上。 |
解决方法:在 HBN 容器外部的 PF 上使用 | |
关键词:统计信息;容器 | |
报告于 HBN 版本:1.4.0 | |
3352003 | 描述:如果 |
解决方法:不适用 | |
关键词:NVUE 命令 | |
报告于 HBN 版本:1.3.0 | |
3184745 | 描述:如果接口绑定了多个 ACL,则命令 |
解决方法:使用命令 | |
关键词:ACL | |
报告于 HBN 版本:1.2.0 | |
3158934 | 描述:通过删除 NVUE 用户的密码文件并在 HBN 容器上重启 |
解决方法:删除文件后重新生成容器,或通过运行 | |
关键词:用户删除 | |
报告于 HBN 版本:1.2.0 | |
3185003 | 描述:当数据包封装有 VXLAN 标头时,它会添加额外的字节,这可能会导致数据包超出链路的 MTU。通常,数据包会被分片,但会被静默丢弃,并且不会发生分片。 |
解决方法:确保上行链路端口上的 MTU 始终比主机端口多 50 个字节,这样即使在添加 VXLAN 标头后,入口数据包也不会超出 MTU。 | |
关键词:MTU;VXLAN | |
报告于 HBN 版本:1.2.0 | |
3184905 | 描述:在 VXLAN 封装中,DF 标志不会传播到外部标头。当在内核中转发此类数据包时,可能会被截断,并且在硬件卸载时可能会被丢弃。 |
解决方法:确保上行链路端口上的 MTU 始终比主机端口多 50 个字节,这样即使在添加 VXLAN 标头后,入口数据包也不会超出 MTU。 | |
关键词:VXLAN | |
报告于 HBN 版本:1.2.0 | |
3188688 | 描述:使用命令 |
解决方法:通过运行以下命令在停止 HBN 容器时传递超时值
| |
关键词:超时 | |
报告于 HBN 版本:1.2.0 | |
3129749 | 描述:同一 ACL 规则不能同时应用于端口的入站和出站方向。 |
解决方法:不适用 | |
关键词:ACL | |
报告于 HBN 版本:1.2.0 | |
3126560 | 描述:无法在 HBN 容器中使用 NVUE 修改系统时区。 |
解决方法:可以通过将
| |
关键词:时区;NVUE | |
报告于 HBN 版本:1.2.0 | |
3118204 | 描述:HBN 不支持自动 BGP 功能(其中 ASN 不需要配置,而是由系统根据系统作为叶设备还是脊设备的角色动态推断)。 |
解决方法:如果在 HBN 上配置和使用 BGP,则必须手动配置 BGP ASN。 | |
关键词:BGP | |
报告于 HBN 版本:1.2.0 | |
3233088 | 描述:由于校验和计算已卸载到硬件(不是由内核完成),因此预计在 tcpdump 中看到本地生成的传出数据包的校验和不正确。BGP 保活和更新是一些在 tcpdump 中显示此类不正确校验和的数据包。 |
解决方法:不适用 | |
关键词:BGP | |
报告于 HBN 版本:1.2.0 | |
2821785 | 描述:MAC 地址不是在硬件中学习的,而是在软件中学习的。这可能会影响纯 L2 单播流量的性能。 |
解决方法:不适用 | |
关键词:MAC;L2 | |
报告于 HBN 版本:1.3.0 | |
3017202 | 描述:由于禁用了后端基础单元,某些 NVUE 命令返回 |
解决方法:不适用 | |
关键词:不支持的 NVUE 命令 | |
报告于 HBN 版本:1.3.0 | |
2828838 | 描述:NetworkManager 和其他与 HBN 没有直接关系的服务可能会在 syslog 中显示以下消息
该消息没有功能性影响,可以忽略。 |
解决方法:不适用 | |
关键词:错误 | |
报告于 HBN 版本:1.3.0 |
下表列出了在此 HBN 版本中已修复的已知问题。
参考 | 描述 |
4155959 | 描述:当上行链路在br-sfc桥接中时,上行链路到上行链路方向的 IPv6 流量会导致 OVS 崩溃,从而导致完全的流量丢失。 |
修复于 HBN 版本:2.5.0 | |
4197067 | 描述:管理 VRF 未配置 IPv6 地址,导致管理 VRF 中缺少默认 IPv6 路由。因此,管理端口上的 IPv6 连接不可用,仅支持 IPv4 连接。 |
修复于 HBN 版本:2.5.0 | |
4093502 | 描述:VRF 接口具有环回地址,但这些环回地址的作用域为全局作用域,而不是主机作用域,这可能会破坏源自 VRF 的数据包的源 IP 地址查找。 |
修复于 HBN 版本:2.4.0 | |
4029473 | 描述:极少数情况下,在删除然后创建接口后,通过该接口的 BGP 对等互连可能会公告以 IPv4 映射的 IPv6 地址作为下一跳的 IPv6 路由,另一端的 BGP 对等设备可能会拒绝该路由。 |
修复于 HBN 版本:2.4.0 | |
4125363 | 描述:在较新的 BlueField-2 和 BlueField-3 设备上, |
修复于 HBN 版本:2.4.0 | |
3965589 | 描述:当创建或删除然后重新创建 SR-IOV VF 时,某些端口可能会保持 ethX 命名格式,并且未正确重命名为 pfXvfY 格式。这会导致端口保持错误状态,因为当运行命令 |
修复于 HBN 版本:2.4.0 | |
4004191 | 描述:由于 BlueField-2 上的安全修复,上下文切换次数增加了 20%,这可能会导致用户应用程序(例如 nl2doca)运行速度变慢。 |
修复于 HBN 版本:2.4.0 | |
3880352 | 描述:删除并重新添加 SR-IOV 端口可能会导致 br-hbn 桥接中的某些端口进入错误状态。 |
修复于 HBN 版本:2.4.0 | |
3960825 | 描述:当 |
修复于 HBN 版本:2.3.0 | |
3538167 | 描述:如果通过 NVUE 更改了 BGP AS 号,则可能需要显式重启 FRR 服务。 |
修复于 HBN 版本:2.3.0 | |
3360699 | 描述:如果需要在 HBN 运行的接口上减小默认 MTU,则在 BlueField 以及 HBN 中进行更改后,必须重启 BlueField 才能使更改正确生效。 |
修复于 HBN 版本:2.3.0 | |
3864080 | 描述:当接口关闭然后打开时,其子接口会丢失其 IPv6 地址,并且不会恢复。 |
修复于 HBN 版本:2.3.0 | |
3632344 | 描述:BlueField 侧(HBN 容器外部)的 HBN 接口可能无法从 systemd-network 设置其正确的 MTU。 |
修复于 HBN 版本:2.2.0 | |
3760869 | 描述:在大量路由(16K+)规模中,PPS 非常低的数据路径流可能会在老化时间(60 秒)之前被删除。 |
修复于 HBN 版本:2.2.0 | |
3770992 | 描述:无法使用 NVUE 配置 IPv6 默认 ( |
修复于 HBN 版本:2.2.0 | |
3824881 | 描述:当使用的唯一 ECMP 组的数量超过 6 个时,会导致使用大于 6 的 ECMP 组编程前缀失败。唯一性基于 ECMP 内容,因此如果多个路由具有相同的下一跳路径,则它们仅使用 1 个 ECMP 组。 |
修复于 HBN 版本:2.2.0 | |
3705894 | 描述:在 EVPN 对称路由场景中,IPv6 流量未进行硬件卸载。 |
修复于 HBN 版本:2.2.0 | |
3519324 | 描述:与之前的 HBN 版本 (1.4.0) 相比,DOCA HBN 容器启动时间大约长 1 分钟 |
修复于 HBN 版本:2.1.0 | |
3219539 | 描述:TC 规则由 OVS 编程,以将上行链路和主机表示端口映射到 HBN 服务。这些规则是可老化的,并且可能导致数据包需要定期进行软件转发以刷新规则。 |
修复于 HBN 版本:2.1.0 | |
3610971 | 描述:命令 |
修复于 HBN 版本:2.0.0 | |
3452914 | 描述:如果 DPU 上的 br-mgmt 接口关闭,则来自 HBN 容器的 IPv6 OOB 连接停止工作。当关闭时,br-mgmt 接口会丢失其 IPv6 地址,该地址用作 HBN 容器的网关地址。如果 br-mgmt 接口恢复,则不会重新添加其 IPv6 地址,并且来自 HBN 容器的 IPv6 OOB 连接将无法工作 |
修复于 HBN 版本:1.5.0 | |
3191433 | 描述:底层路径的 ECMP 选择使用入口端口,并通过轮询识别上行链路端口。这可能不会导致流量的均匀分布。 |
修复于 HBN 版本:1.4.0 | |
3049879 | 描述:当重新加载 ( |
修复于 HBN 版本:1.4.0 | |
3284607 | 描述:当为 IPv4 配置 ACL 并且 L4 参数(协议 tcp/udp、源端口和目标端口)匹配时,ACL 也匹配具有指定 L4 参数的 IPv6 流量。 |
修复于 HBN 版本:1.4.0 | |
3282113 | 描述:某些 DPU 在 HBN 设置中安装 BlueField 操作系统后,时钟设置会遇到问题,日期会恢复为“Thu Sep 8, 2022”。 |
修复于 HBN 版本:1.4.0 | |
3354029 | 描述:如果未在 |
修复于 HBN 版本:1.4.0 |