已知问题#

更新 Connect-X 和 Bluefield-3 适配器的 MLNX 固件#

问题#

DOCA 2.9.1/Ubuntu 24.04 的在线网络存储库不包含更新 Connect-X 和 Bluefield-3 适配器至最新固件版本所需的 mlnx_fw_updater 工具。

解决方法#

安装 mlnx_fw_updater 工具。

$ wget https://linux.mellanox.com/public/repo/mlnx_ofed/latest-24.10/ubuntu24.04/x86_64/mlnx-fw-updater_24.10-1.1.4.0_amd64.deb
$ sudo apt install mlnx-fw-updater_24.10-1.1.4.0_amd64.deb
$ sudo /opt/mellanox/mlnx-fw-updater/mlnx_fw_updater.pl

在 /usr/share/misc/pci.ids 中未找到 DGX 系统设备 ID#

问题#

当您运行以下命令以应用默认 mig-parted 配置时,nvidia-mig-parted 工具会发出关于未能找到 DGX 系统设备 ID 的警告

$ sudo nvidia-mig-parted apply -f /etc/nvidia-mig-manager/config-default.yaml -c all-balanced -k /etc/nvidia-mig-manager/hooks-default.yaml

2024/09/05 01:00:00 WARNING: unable to get device name: [failed to find device with id '22a3']
2024/09/05 01:00:00 WARNING: unable to get device name: [failed to find device with id '22a3']
2024/09/05 01:00:00 WARNING: unable to get device name: [failed to find device with id '22a3']

解决方法#

通过运行 update-pciids 命令,使用当前版本的 PCI ID 列表更新系统

sudo update-pciids

不支持虚拟化#

问题#

虚拟化技术,例如 ESXi 虚拟机监控程序或基于内核的虚拟机 (KVM),并非 DGX 系统上的预期用例,且未经测试。

在气隙系统上加载镜像存储库时发生错误#

问题#

当您在气隙系统上运行 apt update 命令以加载镜像存储库时,会出现以下错误消息

File not found - /media/repository/mirror/security.ubuntu.com/ubuntu/dists/jammy-security/main/cnf/Commands-amd64 (2: No such file or directory)
Failed to fetch file:/media/repository/mirror/security.ubuntu.com/ubuntu/dists/jammy-security/main/cnf/Commands-amd64  File not found - /media/repository/mirror/security.ubuntu.com/ubuntu/dists/jammy-security/main/cnf/Commands-amd64 (2: No such file or directory)

说明#

此问题发生的原因是 Ubuntu 23.10 中提供的 apt-mirror 软件包的修复程序尚未在 Ubuntu 22.04 存储库中实施。如果您正在使用 apt-mirror 软件包

  • 版本高于 0.5.4-1:请提交支持案例,联系 NVIDIA 企业服务。

  • 版本 0.5.4-1:请使用以下解决方法来镜像存储库。

您可以运行以下命令来确定您的 apt-mirror 软件包的版本

$ dpkg -l | grep apt-mirror

ii  apt-mirror                  0.5.4-1               all             APT sources mirroring tool

解决方法#

要解决此问题,请使用 Ubuntu 23.10 Docker 镜像按照以下说明操作

  1. 在具有网络访问权限的 Ubuntu 20.04 或更高版本的系统上,格式化可移动 USB 闪存驱动器,并将该驱动器挂载到 /media。例如,

    sudo mkfs.ext4 device
    sudo mount -t ext4 device /media
    
  2. 创建一个空目录,并使其可供可以访问 Docker 容器的用户(例如 joe)访问。

    mkdir /media/repository
    chown joe /media/repository
    chmod 755 /media/repository
    
  3. 以步骤 2 中指定的用户身份,创建以下两个文件

    ./mirror.list
    
    set base_path /media/repository
    set run_postmirror 0
    set nthreads 20
    set _tilde 0
    deb http://security.ubuntu.com/ubuntu jammy-security main multiverse universe restricted
    deb http://archive.ubuntu.com/ubuntu/ jammy main multiverse universe restricted
    deb http://archive.ubuntu.com/ubuntu/ jammy-updates main multiverse universe restricted
    deb [ arch=amd64 ] https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /
    deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy common dgx
    deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy-updates common dgx
    deb https://developer.download.nvidia.com/hpc-sdk/ubuntu/amd64 /
    deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy common dgx
    deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy-updates common dgx
    
    ./Dockerfile
    
    FROM ubuntu:23.10
    ENV DEBIAN_FRONTEND=noninteractive
    RUN apt update
    RUN apt install -y apt-mirror
    COPY ./mirror.list /etc/apt/mirror.list
    RUN chmod 644 /etc/apt/mirror.list
    
    CMD ["apt-mirror"]
    
  4. 以步骤 2 中指定的用户身份,运行以下命令以在 /media/repository 上构建镜像。

    docker build -t dgxos6mirror .
    docker run --rm -it -v /media/repository/:/media/repository dgxos6mirror
    

    注意

    此步骤需要很长时间才能完成,因为需要下载近 1 TB 的数据。

  5. 从联网系统卸载 media 目录

    sudo umount /media
    
  6. media 目录移动并挂载到目标 DGX 系统

    sudo mount -t <device> /media
    
  7. 以 root 身份,编辑 sources.listcuda-compute-repo.listdgx.listnvhpc.list 文件,以指向正确的本地镜像,如下所示

    /etc/apt/sources.list
    deb file:///media/repository/mirror/archive.ubuntu.com/ubuntu/ jammy main restricted universe multiverse
    deb file:///media/repository/mirror/archive.ubuntu.com/ubuntu/ jammy-updates main restricted universe multiverse
    deb file:///media/repository/mirror/security.ubuntu.com/ubuntu/ jammy-security main restricted universe multiverse
    
    /etc/apt/sources.list.d/cuda-compute-repo.list
    deb [arch=amd64 signed-by=/usr/share/keyrings/cuda_debian_prod.gpg] file:///raid/media/repository/mirror/developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /
    
    /etc/apt/sources.list.d/dgx.list
    deb [arch=amd64 signed-by=/usr/share/keyrings/dgx_debian_prod.gpg] file:///raid/media/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy common dgx
    deb [arch=amd64 signed-by=/usr/share/keyrings/dgx_debian_prod.gpg] file:///raid/media/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy-updates common dgx
    
    /etc/apt/sources.list.d/nvhpc.list
    deb [arch=amd64 signed-by=/usr/share/keyrings/nvidia-hpcsdk-archive-keyring.gpg] file:///raid/media/repository/mirror/developer.download.nvidia.com/hpc-sdk/ubuntu/amd64 /
    
  8. 查看 sources.list.d 目录中的其他文件,以验证您没有相同存储库的重复条目。

  9. 测试您的目标系统是否可以加载这些存储库。

    sudo apt update
    

    如果您看到错误消息,请联系 NVIDIA 企业服务。