安装 NVIDIA DOCA-OFED#

面向 Red Hat Enterprise Linux 的 NVIDIA DGX™ 软件堆栈不包含面向 Linux 的 NVIDIA DOCA™ OFED(OpenFabrics Enterprise Distribution)软件。 这是为了确保 DOCA-OFED 软件(完整 DOCA 软件包的子集)与 Red Hat 发行版内核同步。 本主题介绍如何在运行 Red Hat Enterprise Linux 的系统上下载、安装和升级 DOCA-OFED 软件。

DOCA-Host 安装配置文件#

DOCA 软件包包含多个子集,称为 DOCA-Host 安装配置文件,这些配置文件是经过完整验证和测试的安装包。 下表列出了可用的 DOCA-Host 配置文件

DOCA-Host 配置文件

描述

doca-ofed

允许您使用 DOCA-Host 软件包安装与 MLNX_OFED 相同的驱动程序和工具,但没有其他 DOCA 功能。

doca-network

适用于只想使用 DOCA-Host 软件包的网络功能的用户。

doca-all

适用于想要使用 DOCA 驱动程序和库的全部功能的用户,即完整的 DOCA-Host 安装。

有关更多信息,请参阅 NVIDIA DOCA 配置文件

先决条件#

  1. 在安装不同版本的 DOCA-OFED 软件之前,您必须删除系统上已安装的 DOCA-OFED 或 MLNX_OFED 软件。

    • 基于 Debian 的 Linux

      # Remove the installed DOCA-OFED software.
      $ for f in $( dpkg --list | grep doca | awk '{print $2}' ); do echo $f ; sudo apt remove --purge $f -y ; done
      
      # Remove the installed MLNX_OFED software.
      $ sudo /usr/sbin/ofed_uninstall.sh --force
      
      $ sudo apt-get autoremove
      
    • 基于 RPM 的 Linux

      # Remove the installed DOCA-OFED software from the host.
      for f in $(rpm -qa | grep -i doca ) ; do sudo yum -y remove $f; done
      
      # Remove the installed MLNC_OFED software.
      sudo /usr/sbin/ofed_uninstall.sh --force
      
      sudo yum autoremove
      sudo yum makecache
      
  2. 下载并安装 NVIDIA RPM GPG 密钥。

    1. 下载 NVIDIA RPM-GPG-KEY-Mellanox-SHA256 密钥。

      wget http://www.mellanox.com/downloads/ofed/RPM-GPG-KEY-Mellanox-SHA256
      
    2. 安装密钥。

      sudo rpm --import RPM-GPG-KEY-Mellanox-SHA256
      
    3. 验证密钥是否已成功导入。

      sudo rpm -q gpg-pubkey --qf '%{NAME}-%{VERSION}-%{RELEASE}\t%{SUMMARY}\n' | grep Mellanox
      

在具有 ConnectX-7 网卡的系统上安装 DOCA-OFED#

要在主机上安装具有 doca-ofed 配置文件的 DOCA-Host 软件包,

  1. 打开安装文件页面,根据您想要的操作系统和架构选项下载 DOCA-Host 安装文件。

    或者,您可以使用DOCA 下载页面下载安装文件。

  2. 解压 RPM 软件包。

    sudo rpm -Uvh <repo_file>.rpm
    
  3. 使用 yum 命令执行更新。

    sudo yum makecache
    
  4. 确定主机上的内核版本是否受支持,如每个 DOCA-Host 安装配置文件支持的主机操作系统中所示。

    如果内核版本不受支持,请按照DOCA 额外软件包中描述的说明进行操作。

  5. 运行 yum install 命令以安装 doca-ofed 配置文件。

    sudo yum install -y doca-ofed
    
  6. 重新创建 initramfs 映像。

    sudo dracut -f
    
  7. 重新启动系统。

    sudo systemctl reboot
    
  8. 使用 Red Hat Subscription-Manager 将新的 Red Hat Enterprise Linux 系统注册到客户门户。

    有关更多信息,请参阅 如何使用 Red Hat Subscription-Manager 将 RHEL 系统注册和订阅到 Red Hat 客户门户?

有关主机上 doca-ofed 配置文件安装的更多信息,请参阅在主机上安装软件

在 NIC 模式下具有 BlueField-3 的系统上安装 DOCA-OFED#

如果您的系统配备了 NVIDIA® BlueField®-3 DPU,请确保 DPU 设置为 NIC 模式(BlueField-3 的 NIC 模式),然后继续执行以下说明。

  1. 安装 RShim 驱动程序以管理和刷新 BlueField-3 DPU。

    按照在主机上安装目标 BlueField 的先决条件中描述的步骤进行操作。

    • 选择基于 RPM 的 Linux 的步骤。

  2. 确定 BlueField-3 设备 ID。

    按照确定 BlueField 设备 ID中描述的说明进行操作。

  3. 在主机上安装 DOCA-Host 软件。

    按照所选 DOCA-Host 配置文件的说明安装 DOCA 驱动程序和工具,如在主机上安装软件中所述。

附加信息

安装 nvidia-peermem-loader 软件包#

nvidia-peermem 内核模块通过使用 NVIDIA GPU 驱动程序提供的对等 API,将 NVIDIA GPU 注册到 InfiniBand 子系统。 此模块最初由 Mellanox 在 GitHub 上维护,现在包含在 NVIDIA Linux GPU 驱动程序中。 有关更多信息,请参阅 NVIDIA GPUDirect RDMA 文档中的使用 nvidia-peermem

没有服务会自动加载 nvidia-peermem 模块。 要在启动时自动加载该模块,请安装 NVIDIA peermem 加载程序软件包 (nvidia-peermem-loader)。

sudo dnf install nvidia-peermem-loader

此软件包将 nvidia-peermem 模块添加到 /etc/modules-load.d/nvidia-peermem.conf 中。