安装 NVIDIA DOCA-OFED#
面向 Red Hat Enterprise Linux 的 NVIDIA DGX™ 软件堆栈不包含面向 Linux 的 NVIDIA DOCA™ OFED(OpenFabrics Enterprise Distribution)软件。 这是为了确保 DOCA-OFED 软件(完整 DOCA 软件包的子集)与 Red Hat 发行版内核同步。 本主题介绍如何在运行 Red Hat Enterprise Linux 的系统上下载、安装和升级 DOCA-OFED 软件。
DOCA-Host 安装配置文件#
DOCA 软件包包含多个子集,称为 DOCA-Host 安装配置文件,这些配置文件是经过完整验证和测试的安装包。 下表列出了可用的 DOCA-Host 配置文件
DOCA-Host 配置文件 |
描述 |
---|---|
doca-ofed |
允许您使用 DOCA-Host 软件包安装与 MLNX_OFED 相同的驱动程序和工具,但没有其他 DOCA 功能。 |
doca-network |
适用于只想使用 DOCA-Host 软件包的网络功能的用户。 |
doca-all |
适用于想要使用 DOCA 驱动程序和库的全部功能的用户,即完整的 DOCA-Host 安装。 |
有关更多信息,请参阅 NVIDIA DOCA 配置文件。
先决条件#
在安装不同版本的 DOCA-OFED 软件之前,您必须删除系统上已安装的 DOCA-OFED 或 MLNX_OFED 软件。
基于 Debian 的 Linux
# Remove the installed DOCA-OFED software. $ for f in $( dpkg --list | grep doca | awk '{print $2}' ); do echo $f ; sudo apt remove --purge $f -y ; done # Remove the installed MLNX_OFED software. $ sudo /usr/sbin/ofed_uninstall.sh --force $ sudo apt-get autoremove
基于 RPM 的 Linux
# Remove the installed DOCA-OFED software from the host. for f in $(rpm -qa | grep -i doca ) ; do sudo yum -y remove $f; done # Remove the installed MLNC_OFED software. sudo /usr/sbin/ofed_uninstall.sh --force sudo yum autoremove sudo yum makecache
下载并安装 NVIDIA RPM GPG 密钥。
下载 NVIDIA RPM-GPG-KEY-Mellanox-SHA256 密钥。
wget http://www.mellanox.com/downloads/ofed/RPM-GPG-KEY-Mellanox-SHA256
安装密钥。
sudo rpm --import RPM-GPG-KEY-Mellanox-SHA256
验证密钥是否已成功导入。
sudo rpm -q gpg-pubkey --qf '%{NAME}-%{VERSION}-%{RELEASE}\t%{SUMMARY}\n' | grep Mellanox
在具有 ConnectX-7 网卡的系统上安装 DOCA-OFED#
要在主机上安装具有 doca-ofed 配置文件的 DOCA-Host 软件包,
打开安装文件页面,根据您想要的操作系统和架构选项下载 DOCA-Host 安装文件。
或者,您可以使用DOCA 下载页面下载安装文件。
解压 RPM 软件包。
sudo rpm -Uvh <repo_file>.rpm
使用
yum
命令执行更新。sudo yum makecache
确定主机上的内核版本是否受支持,如每个 DOCA-Host 安装配置文件支持的主机操作系统中所示。
如果内核版本不受支持,请按照DOCA 额外软件包中描述的说明进行操作。
运行
yum install
命令以安装 doca-ofed 配置文件。sudo yum install -y doca-ofed
重新创建 initramfs 映像。
sudo dracut -f
重新启动系统。
sudo systemctl reboot
使用 Red Hat Subscription-Manager 将新的 Red Hat Enterprise Linux 系统注册到客户门户。
有关更多信息,请参阅 如何使用 Red Hat Subscription-Manager 将 RHEL 系统注册和订阅到 Red Hat 客户门户?。
有关主机上 doca-ofed 配置文件安装的更多信息,请参阅在主机上安装软件。
在 NIC 模式下具有 BlueField-3 的系统上安装 DOCA-OFED#
如果您的系统配备了 NVIDIA® BlueField®-3 DPU,请确保 DPU 设置为 NIC 模式(BlueField-3 的 NIC 模式),然后继续执行以下说明。
安装 RShim 驱动程序以管理和刷新 BlueField-3 DPU。
按照在主机上安装目标 BlueField 的先决条件中描述的步骤进行操作。
选择基于 RPM 的 Linux 的步骤。
确定 BlueField-3 设备 ID。
按照确定 BlueField 设备 ID中描述的说明进行操作。
在主机上安装 DOCA-Host 软件。
按照所选 DOCA-Host 配置文件的说明安装 DOCA 驱动程序和工具,如在主机上安装软件中所述。
附加信息
MFT 下载说明:更新单个网络接口卡 (NIC) 的固件
更改 BlueField-3 BMC 默认密码:更改默认密码
安装 nvidia-peermem-loader 软件包#
nvidia-peermem
内核模块通过使用 NVIDIA GPU 驱动程序提供的对等 API,将 NVIDIA GPU 注册到 InfiniBand 子系统。 此模块最初由 Mellanox 在 GitHub 上维护,现在包含在 NVIDIA Linux GPU 驱动程序中。 有关更多信息,请参阅 NVIDIA GPUDirect RDMA 文档中的使用 nvidia-peermem。
没有服务会自动加载 nvidia-peermem
模块。 要在启动时自动加载该模块,请安装 NVIDIA peermem 加载程序软件包 (nvidia-peermem-loader
)。
sudo dnf install nvidia-peermem-loader
此软件包将 nvidia-peermem
模块添加到 /etc/modules-load.d/nvidia-peermem.conf
中。