更新软件#
这些说明解释了如何通过互联网连接到 NVIDIA 公共存储库来更新 DGX OS 服务器软件。此过程将 DGX 系统镜像更新到整个 DGX 软件堆栈的最新版本,包括驱动程序。
使用 DGX 服务器控制台上的命令执行更新。
** 软件更新准备**
连接到 DGX 服务器控制台
使用直接连接或通过 BMC 的远程连接连接到 DGX 服务器控制台。
注意
SSH 可以用于执行更新。但是,如果以太网端口配置为 DHCP,则在更新期间 DGX 服务器重启后,IP 地址可能会更改,从而导致连接丢失。如果发生这种情况,请使用直接连接或通过 BMC 连接以继续更新过程。
警告
如果 DGX 连接到 172.17.xx.xx 子网,请直接连接到 DGX 服务器控制台。DGX OS 服务器软件安装了 Docker CE,默认情况下 Docker 容器使用 172.17.xx.xx 子网。如果 DGX 服务器位于同一子网上,您将无法建立到 DGX 服务器的网络连接。有关如何在执行更新后更改默认 Docker 网络设置的说明,请参阅相应的 DGX-1 或 DGX-2 用户指南。
直接连接
将显示器连接到 VGA 接口,并将键盘连接到任何一个 USB 端口。
开启 DGX 服务器电源。
通过 BMC 远程连接
有关建立到 BMC 的远程连接的说明,请参阅相应的用户指南(DGX-1 或 DGX-2)。
验证 DGX 服务器与存储库的连接
在尝试执行更新之前,请验证 DGX 服务器网络连接可以访问公共存储库,并且连接未被防火墙或代理阻止。
在 DGX-1 系统上从 2.x 版本升级时。
在 DGX-1 系统上输入以下内容
wget -O f1-changelogshttp://changelogs.ubuntu.com/meta-release-lts
wget -O f2-archive \ http://archive.ubuntu.com/ubuntu/dists/xenial/Release
wget -O f3-usarchive \ http://us.archive.ubuntu.com/ubuntu/dists/xenial/Release
wget -O f4-security \ http://security.ubuntu.com/ubuntu/dists/xenial/Release
wget -O f5-download \ https://download.docker.com/linux/ubuntu/dists/xenial/Release
wget -O f6-international \ http://international.download.nvidia.com/dgx/repos/dists/xenial/Release
所有 ``wget`` 命令都应成功,并且目录中应有六个非零内容的文件。
在 DGX-2 和 DGX-1 系统上
在 DGX 系统上输入以下内容
wget -O f1-changelogs http://changelogs.ubuntu.com/meta-release-lts
wget -O f2-archive http://archive.ubuntu.com/ubuntu/dists/bionic/Release
wget -O f3-usarchive \ http://us.archive.ubuntu.com/ubuntu/dists/bionic/Release
wget -O f4-security \ http://security.ubuntu.com/ubuntu/dists/bionic/Release
wget -O f5-international \ http://international.download.nvidia.com/dgx/repos/bionic/dists/bionic/Release
wget -O f6-international \ http://international.download.nvidia.com/dgx/repos/bionic/dists/bionic-\ r418+cuda10.1/Release
wget -O f7-international \ http://international.download.nvidia.com/dgx/repos/bionic/dists/bionic-\ r450+cuda11.0/Release
所有 wget 命令都应成功,并且目录中应有七个非零内容的文件
更新路径说明
按照与您当前 DGX OS 服务器软件对应的说明进行操作。
从 Release 4.1 及更高版本更新
按照从 Release 4.1 及更高版本更新的说明进行操作。
从 Release 4.0 更新(仅限版本 4.0.1 或更高版本)
按照从 4.0.1(或更高版本)更新的说明进行操作。
从 Release 3.1 更新
按照从 Release 3.1 更新的说明进行操作。
从 Release 2.x 更新
按照 DGX OS 3.1.8 发行说明中所述,从 Release 2.x 更新到最新的 Release 3.1。
从 Release 3.1 更新
从 Release 4.1 及更高版本更新
有关连接到控制台以执行更新的指南,请参阅连接到 DGX 控制台部分。
注意
这些说明更新所有可从您配置的软件源获得的软件更新,包括您自己安装的应用程序。如果您想阻止应用程序被更新,您可以指示 Ubuntu 包管理器保留当前版本。有关更多信息,请参阅 Ubuntu Community Help Wiki 上的软件包保留简介。
更新说明
如果您尚未执行此操作,请验证您的 DGX 系统是否可以访问公共存储库,如验证 DGX 服务器与存储库的连接中所述。
注意
R418 软件包/存储库用户 NVIDIA 强烈建议所有用户迁移到 R450 分支,因为 R418 已达到生命周期终止支持。要升级,请运行以下命令
sudo apt update sudo apt install -y dgx-bionic-r450+cuda11.0-repo
更新可用软件包及其版本的列表。
sudo apt update
查看将要更新的软件包。
sudo apt full-upgrade -s
要阻止应用程序被更新,请指示 Ubuntu 包管理器保留当前版本。请参阅 软件包保留简介。
升级到版本 4.14.0
sudo apt full-upgrade
回答出现的任何问题。
大多数问题需要回答“是”或“否”。当被要求选择要使用的 grub 配置时,选择系统上当前的配置。
其他问题将取决于更新前安装的其他软件包以及这些软件包如何与更新交互。
如果出现消息指示
nvidia-docker.service
启动失败,
,您可以忽略它并继续下一步。该服务将在届时正常启动。重启系统。
从中断或失败的更新中恢复
如果在更新期间脚本中断,例如由于断电或网络连接丢失,则恢复供电或恢复网络连接,以解决导致中断的原因。
如果在恢复供电并重启后系统遇到内核崩溃
DGX-2,您将无法执行网络更新。您需要使用最新的镜像重新映像 DGX-2(有关说明,请参阅 DGX-2 用户指南),然后执行网络更新。
如果您成功返回到 Linux 命令行,请继续按照从 Release 4.1 及更高版本更新更新说明中的步骤 2 开始的说明进行操作
从 4.0.1(或更高版本)更新
对于 Release 4.0,这些说明仅支持从版本 4.0.1 及更高版本进行更新。要从版本 4.0.0 更新,您必须重新映像系统。
有关连接到控制台以执行更新的指南,请参阅“连接到 DGX 控制台”部分。
注意
注意:这些说明更新所有可从您配置的软件源获得的软件更新,包括您自己安装的应用程序。如果您想阻止应用程序被更新,您可以指示 Ubuntu 包管理器保留当前版本。有关更多信息,请参阅 Ubuntu Community Help Wiki 上的软件包保留简介。
更新说明
如果您尚未执行此操作,请验证您的 DGX 系统是否可以访问公共存储库,如验证 DGX 服务器与存储库的连接中所述。
更新可用软件包及其版本的列表。
sudo apt update
从存储库安装 4.1.0 组件。
sudo apt install -y dgx-bionic-r418+cuda10.1-repo
(可选)跳过此步骤以保留 R418 软件包;但是,要移动到 R450 软件包,请执行以下操作。
sudo apt install -y dgx-bionic-r450+cuda11.0-repo
更新新的软件包及其版本的列表。
sudo apt update
查看将要更新的软件包。
sudo apt full-upgrade -s
要阻止应用程序被更新,请指示 Ubuntu 包管理器保留当前版本。请参阅 软件包保留简介。
升级到版本 4.14.0。
sudo apt full-upgrade
回答出现的任何问题。
大多数问题需要回答“是”或“否”。当被要求选择要使用的 grub 配置时,选择系统上当前的配置。
其他问题将取决于更新前安装的其他软件包以及这些软件包如何与更新交互。
如果出现消息指示
nvidia-docker.service
启动失败,
,您可以忽略它并继续下一步。该服务将在届时正常启动。重启系统。
从中断或失败的更新中恢复
如果在更新期间脚本中断,例如由于断电或网络连接丢失,则恢复供电或恢复网络连接,以解决导致中断的原因。
如果在恢复供电并重启后系统遇到内核崩溃
DGX-2,您将无法执行网络更新。您需要使用最新的镜像重新映像 DGX-2(有关说明,请参阅 DGX-2 用户指南),然后执行网络更新。
如果您成功返回到 Linux 命令行,请继续按照从版本 4.0.1(或更高版本)更新说明中的步骤 2 开始的说明进行操作。
从 3.1.x 更新
有关连接到控制台以执行更新的指南,请参阅“连接到 DGX 控制台”部分。
! |
注意:这些说明更新所有可从您配置的软件源获得的软件更新,包括您自己安装的应用程序。如果您想阻止应用程序被更新,您可以指示 Ubuntu 包管理器保留当前版本。有关更多信息,请参阅 Ubuntu Community Help Wiki 上的 软件包保留简介 。 |
更新说明
如果您尚未执行此操作,请验证您的 DGX-1 系统是否可以访问公共存储库,如 >验证 DGX 服务器与存储库的连接中所述。
更新可用软件包及其版本的列表。
sudo apt update
安装任何更新。
sudo apt -y full-upgrade
安装 dgx-release-upgrade。
sudo apt install -y dgx-release-upgrade
开始更新过程。
sudo dgx-release-upgrade
如果您正在使用代理服务器,则添加 ``-E`` 选项以保留您的代理环境变量。
示例
sudo -E dgx-release-upgrade
启动更新过程后,按如下所示响应显示的选项
如果您通过安全外壳 (SSH) 远程登录到 DGX 服务器,并且被询问是否要继续在 SSH 下运行,请按 y。
继续在 SSH 下运行吗?
此会话似乎在 ssh 下运行。目前不建议通过 ssh 执行升级,因为如果发生故障,则更难恢复。
如果继续,将在端口“1022”上启动一个额外的 ssh 守护程序。
您要继续吗?
继续 [yN]
已启动额外的 sshd 守护程序。
按 Enter 以响应以下消息。
正在启动额外的 sshd
为了更容易地从故障中恢复,将在端口“1022”上启动一个额外的 sshd。如果正在运行的 ssh 出现任何问题,您仍然可以连接到额外的 sshd。
如果您运行防火墙,则可能需要暂时打开此端口。由于这可能很危险,因此不会自动完成。您可以使用例如以下命令打开端口:
‘iptables -I INPUT -p tcp –dport 1022 -j ACCEPT’
要继续,请按 [ENTER]
按 Enter 以响应警告您第三方源已禁用的消息。
第三方源已禁用
您的 sources.list 中的某些第三方条目已被禁用。您可以在升级后使用“software-properties”工具或您的软件包管理器重新启用它们。
要继续,请按 [ENTER]
如果系统提示您选择 dgx.list
配置,请按 N。
配置文件 '/etc/apt/sources.list.d/dgx.list'
==> 自安装以来已被修改(由您或脚本)。
==> 软件包分发者已发布更新版本。
您想对此做些什么?您的选项是
Y 或 I:安装软件包维护者的版本
N 或 O:保留您当前安装的版本
D:显示版本之间的差异
Z:启动 shell 以检查情况
默认操作是保留您当前的版本。
*** dgx.list (Y/I/N/O/D/Z) [默认=N]?
当提示您解析其他配置文件时,请在接受软件包维护者的版本、保留本地版本或手动解决差异之前评估更改。系统还会询问您是否要确认删除过时的软件包。
在提示您确认开始升级时,按 Y 开始。
您要开始升级吗?
……
安装升级可能需要数小时。下载完成后,该过程无法取消。
继续 [yN] 详细信息 [d]
按 Y 继续进行最终重启。
系统升级完成。
需要重启
要完成升级,需要重启。
如果选择“y”,系统将重启。
继续 [yN]
重启后,更新过程将需要几分钟才能执行一些最终安装步骤。
您的系统现已更新到最新的 DGX OS 4 版本。
(可选)如果您想安装 R450 驱动程序包,请按照从 Release 4.1 及更高版本更新中的说明进行操作。