已知问题#
更新 Connect-X 和 Bluefield-3 适配器的 MLNX 固件#
问题#
DOCA 2.9.1/Ubuntu 24.04 的在线网络存储库不包含更新 Connect-X 和 Bluefield-3 适配器至最新固件版本所需的 mlnx_fw_updater
工具。
解决方法#
安装 mlnx_fw_updater
工具。
$ wget https://linux.mellanox.com/public/repo/mlnx_ofed/latest-24.10/ubuntu24.04/x86_64/mlnx-fw-updater_24.10-1.1.4.0_amd64.deb
$ sudo apt install mlnx-fw-updater_24.10-1.1.4.0_amd64.deb
$ sudo /opt/mellanox/mlnx-fw-updater/mlnx_fw_updater.pl
不支持虚拟化#
问题#
虚拟化技术,例如 ESXi 虚拟机监控程序或基于内核的虚拟机 (KVM),并非 DGX 系统上的预期用例,且未经测试。
在气隙系统上加载镜像存储库时发生错误#
问题#
当您在气隙系统上运行 apt update
命令以加载镜像存储库时,会出现以下错误消息
File not found - /media/repository/mirror/security.ubuntu.com/ubuntu/dists/jammy-security/main/cnf/Commands-amd64 (2: No such file or directory)
Failed to fetch file:/media/repository/mirror/security.ubuntu.com/ubuntu/dists/jammy-security/main/cnf/Commands-amd64 File not found - /media/repository/mirror/security.ubuntu.com/ubuntu/dists/jammy-security/main/cnf/Commands-amd64 (2: No such file or directory)
说明#
此问题发生的原因是 Ubuntu 23.10 中提供的 apt-mirror
软件包的修复程序尚未在 Ubuntu 22.04 存储库中实施。如果您正在使用 apt-mirror
软件包
版本高于 0.5.4-1:请提交支持案例,联系 NVIDIA 企业服务。
版本 0.5.4-1:请使用以下解决方法来镜像存储库。
您可以运行以下命令来确定您的 apt-mirror
软件包的版本
$ dpkg -l | grep apt-mirror
ii apt-mirror 0.5.4-1 all APT sources mirroring tool
解决方法#
要解决此问题,请使用 Ubuntu 23.10 Docker 镜像按照以下说明操作
在具有网络访问权限的 Ubuntu 20.04 或更高版本的系统上,格式化可移动 USB 闪存驱动器,并将该驱动器挂载到
/media
。例如,sudo mkfs.ext4 device sudo mount -t ext4 device /media
创建一个空目录,并使其可供可以访问 Docker 容器的用户(例如 joe)访问。
mkdir /media/repository chown joe /media/repository chmod 755 /media/repository
以步骤 2 中指定的用户身份,创建以下两个文件
./mirror.list set base_path /media/repository set run_postmirror 0 set nthreads 20 set _tilde 0 deb http://security.ubuntu.com/ubuntu jammy-security main multiverse universe restricted deb http://archive.ubuntu.com/ubuntu/ jammy main multiverse universe restricted deb http://archive.ubuntu.com/ubuntu/ jammy-updates main multiverse universe restricted deb [ arch=amd64 ] https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ / deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy common dgx deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy-updates common dgx deb https://developer.download.nvidia.com/hpc-sdk/ubuntu/amd64 / deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy common dgx deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy-updates common dgx
./Dockerfile FROM ubuntu:23.10 ENV DEBIAN_FRONTEND=noninteractive RUN apt update RUN apt install -y apt-mirror COPY ./mirror.list /etc/apt/mirror.list RUN chmod 644 /etc/apt/mirror.list CMD ["apt-mirror"]
以步骤 2 中指定的用户身份,运行以下命令以在
/media/repository
上构建镜像。docker build -t dgxos6mirror . docker run --rm -it -v /media/repository/:/media/repository dgxos6mirror
注意
此步骤需要很长时间才能完成,因为需要下载近 1 TB 的数据。
从联网系统卸载
media
目录sudo umount /media
将
media
目录移动并挂载到目标 DGX 系统sudo mount -t <device> /media
以 root 身份,编辑
sources.list
、cuda-compute-repo.list
、dgx.list
和nvhpc.list
文件,以指向正确的本地镜像,如下所示/etc/apt/sources.list deb file:///media/repository/mirror/archive.ubuntu.com/ubuntu/ jammy main restricted universe multiverse deb file:///media/repository/mirror/archive.ubuntu.com/ubuntu/ jammy-updates main restricted universe multiverse deb file:///media/repository/mirror/security.ubuntu.com/ubuntu/ jammy-security main restricted universe multiverse
/etc/apt/sources.list.d/cuda-compute-repo.list deb [arch=amd64 signed-by=/usr/share/keyrings/cuda_debian_prod.gpg] file:///raid/media/repository/mirror/developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /
/etc/apt/sources.list.d/dgx.list deb [arch=amd64 signed-by=/usr/share/keyrings/dgx_debian_prod.gpg] file:///raid/media/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy common dgx deb [arch=amd64 signed-by=/usr/share/keyrings/dgx_debian_prod.gpg] file:///raid/media/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/jammy/x86_64/ jammy-updates common dgx
/etc/apt/sources.list.d/nvhpc.list deb [arch=amd64 signed-by=/usr/share/keyrings/nvidia-hpcsdk-archive-keyring.gpg] file:///raid/media/repository/mirror/developer.download.nvidia.com/hpc-sdk/ubuntu/amd64 /
查看
sources.list.d
目录中的其他文件,以验证您没有相同存储库的重复条目。测试您的目标系统是否可以加载这些存储库。
sudo apt update
如果您看到错误消息,请联系 NVIDIA 企业服务。