验证 PCI 交换机系统拓扑#

GDS 需要特定的硬件拓扑才能运行。验证 PCI 拓扑以确保 GPU 和 NIC 位于同一交换机下。一种实现此目的的方法是通过 lstopo

1sudo apt install hwloc -y
2lstopo --output-format png > lstopo.png

来自 DGX-A100 的兼容拓扑示例。GPU 和 NIC 位于同一交换机下

_images/gds-03.png

不兼容拓扑示例 - GPU (PCI 17:00.0) 直接连接到 CPU

_images/gds-04.png