初始设置#
本主题介绍 DGX 系统在交付后首次开机或系统重置镜像后的设置过程。
要开始此过程,您需要接受最终用户许可协议 (EULA) 并设置您的用户名和密码。要预览 EULA,请访问 企业软件协议 页面,然后点击 NVIDIA AI、DGX 和 NVIDIA AI Enterprise 下的 NVIDIA 软件许可协议。
连接到 DGX 系统#
在安装和初始配置步骤中,您需要连接到 DGX 系统的控制台。要连接到 DGX 系统,请使用以下方法之一
通过 BMC 中的虚拟键盘、视频和鼠标 (KVM)。
使用本地显示器和键盘直接连接。
有关支持的连接方法和特定产品说明的列表,请参阅相应的 DGX 产品用户指南
首次启动设置向导#
以下是完成首次启动过程的步骤。DGX 系统之间有所不同
DGX 服务器的首次启动过程#
以下是完成 DGX 服务器首次启动过程的步骤。
如果 DGX OS 在安装时选择了加密根文件系统,系统将提示您解锁驱动器。有关更多信息,请参阅 高级安装选项(加密根)。当您选择此菜单项时,您可以加密 DGX 系统的根文件系统。
在 crypt 提示符下输入
nvidia3d
。接受 EULA 以继续 DGX 系统设置。
完成以下步骤
选择您的语言和区域设置偏好。
选择键盘的国家/地区。
选择您的时区。
确认 UTC 时钟设置。
创建具有您的姓名、用户名和密码的管理用户帐户。
此用户名也用作 BMC 和 GRUB 用户名。
BMC 软件不接受用户名
sysadmin
,并且您无法使用该用户名登录到 BMC。注意
在此过程的此步骤中,默认的 BMC 管理员用户将被禁用,并将创建一个新的 BMC 管理员用户。
用户名必须由小写字母组成。
此用户名将用于管理活动,而不是 root 帐户。
确保输入强密码。
如果您输入的密码强度较弱,将出现警告消息。
创建 BMC 管理员密码。BMC 密码允许的字符长度取决于特定的 DGX 产品
DGX A100:13 - 20 个字符
DGX Station A100:13 - 20 个字符
DGX H100/H200:13 - 20 个字符
DGX B200:13 - 20 个字符
创建登录凭据后,默认凭据将不再有效。
创建 GRUB 密码。
您的 GRUB 密码必须至少包含 8 个字符。如果少于 8 个字符,您将无法点击 继续。
如果您在不输入密码的情况下继续,GRUB 保护将被禁用。为了增加安全性,NVIDIA 建议您设置 GRUB 密码。
创建根文件系统密码。仅当在 DGX OS 安装时选择了根文件系统加密时,才会显示此对话框。有关更多信息,请参阅 高级安装选项(加密根)。当您选择此菜单项时,您可以加密 DGX 系统的根文件系统。
为 DGX 系统选择一个主网络接口。这通常应该是您将用于后续系统配置或带内管理的接口。例如
DGX A100:
enp226s0
DGX H100/H200:
eno3
DGX B200:
eno3
请勿选择
enp37s0f3u1u3c2
、bmc_redfish0
或类似名称,因为此接口仅用于带外管理或将来支持将访问 Redfish API 的带内工具。选择主网络接口后,系统会尝试为 DHCP 配置该接口,并提示您输入名称服务器地址。
如果 DHCP 不可用,请在“网络自动配置失败”对话框中点击 确定,然后手动配置网络。
要配置静态地址,请在 DHCP 配置完成后在对话框中点击 取消 以重新启动网络配置步骤。
要选择不同的网络接口,请在 DHCP 配置完成后在对话框中点击 取消 以重新启动网络配置步骤。
如果出现提示,请输入请求的网络信息,例如名称服务器或域名。
为 DGX 系统选择主机名。
完成首次启动过程后,DGX 系统会配置操作系统,启动系统服务,并在控制台上显示登录提示符。如果已知已配置网络接口的 IP,您可以使用控制台或安全外壳 (SSH) 登录。
注意
在发出重启命令之前,请通过发出 sudo systemctl status nvidia-raid-config
确保 NVIDIA RAID 配置服务已完成,直到出现 Finished NVIDIA RAID Configuration
消息。配置服务通常需要大约 10 分钟才能完成。
DGX Station 的首次启动过程#
重要提示
您可以使用虚拟键盘、视频和鼠标通过远程 BMC 控制台连接到系统。要使用远程 BMC 控制台,请确保 OnBrd/Ext VGA Select SBIOS 配置设置为 OnBoard
。如果 SBIOS 未按此方式配置,系统将在显示端口而不是远程 BMC 控制台上启动用户界面。有关更改 SBIOS 配置的详细信息,请参阅 将 DGX Station A100 用作无显示器的服务器。
当您首次启动 DGX Station 时,系统会提示您接受 NVIDIA 软件的最终用户许可协议。然后,系统将引导您完成初始 Ubuntu OS 配置过程。
在配置过程中,为了防止未经授权的用户使用非默认启动项和修改启动参数,您需要输入 GRUB 密码。
接受 EULA 并点击 继续。
选择您的语言,例如
英语 – 英语
,然后点击 继续。选择您的键盘,例如
英语(美国)
,然后点击 继续。选择您的位置,例如
洛杉矶
,然后点击 继续。输入您的用户名和密码,再次输入密码以确认,然后点击 继续。
以下是一些需要记住的要求
用户名必须由小写字母组成。
用户名将用于管理活动,而不是 root 帐户。
它也用作 GRUB 用户名。
确保输入强密码。
如果您输入的密码强度较弱,将出现警告。
输入 GRUB 密码并点击 确定。
您的 GRUB 密码必须至少包含 8 个字符。
如果少于 8 个字符,您将无法点击 继续。
如果您不输入密码,GRUB 密码保护将被禁用。
如果您执行自动加密安装,系统将提示您为根文件系统创建新的密码。
默认密码使用
nvidia3d
进行了初始化,完成此步骤后将被禁用。此新密码将在系统启动时解锁您的根文件系统。
注意
重启后,请通过发出
sudo systemctl status nvidia-raid-config
确保 NVIDIA RAID 配置服务已完成,直到出现Finished NVIDIA RAID Configuration
消息。配置服务通常需要大约 10 分钟才能完成。
安装后任务#
安装 DGX 系统后,您可以继续执行以下任务。
为 DGX 服务器执行软件包更新#
安装 DGX 服务器(A100、A800、H100、H200、H800 或 B200)后,必须立即更新系统上使用的 DGX OS ISO 7.0 镜像中的软件包。
NVIDIA DGX™ B200 系统出厂时已预装 DGX OS 7.0.0。在大多数情况下,这应该是使用通用可用性版本的驱动程序执行 DGX OS 7.0.1 更新的起点。
注意
要在没有互联网连接的系统上执行 DGX OS 更新,请参阅 离线安装。
按照以下步骤进行 DGX OS 更新
将 DOCA 驱动程序添加到 DGX 服务器#
从 DGX OS 7.0.0 到 7.0.1 的更新使用位于特定于版本的存储库中的 DOCA 版本。按照以下步骤添加此存储库并安装 doca-ofed 软件包及其依赖项
$ sudo apt update
$ sudo apt install -y doca-repo
$ sudo sed -i -e 's/lts\/latest-2.9/2.9.1-2/' /etc/apt/sources.list.d/doca.sources
$ sudo apt update
$ sudo apt install -y doca-ofed mlnx-nfsrdma-dkms mlnx-nvme-dkms
更新剩余的驱动程序和软件包#
安装 DOCA 后,按照标准的 DGX OS 更新步骤安装 DGX OS 中其他软件包所需的更新
$ sudo apt full-upgrade
为将来的更新准备 DGX 服务器#
现在 DGX OS 已更新到 7.0.1,请还原特定于版本的 DOCA 配置以允许将来的升级生效,然后重启以应用更改,如下列命令所示
$ sudo rm /etc/apt/sources.list.d/doca.sources
$ sudo apt reinstall doca-repo -o Dpkg::Options::="--force-confmiss"
$ sudo reboot
验证 DGX OS 7.0.1 更新#
更新后,通过查看 /etc/dgx-release
文件确认更新是否完成。
该文件应指示最初使用 DGX OS 7.0.0,并在末尾包含两行 OTA
行,其中包含 DGX OS 7.0.1 版本和安装日期。例如,
$ cat /etc/dgx-release
DGX_NAME="DGX Server"
DGX_PRETTY_NAME="NVIDIA DGX Server"
DGX_SWBUILD_DATE="2025-01-13-10-40-54"
DGX_SWBUILD_VERSION="7.0.0"
DGX_COMMIT_ID="a610e60"
DGX_PLATFORM="DGX Server for DGX B200"
DGX_SERIAL_NUMBER="1663724000002"
DGX_OTA_VERSION="7.0.1"
DGX_OTA_DATE="Wed Jan 29 09:16:58 AM PST 2025"
为 DGX Station 执行软件包更新#
安装 DGX Station(Station A100 或 Station A800)后,必须立即更新系统上使用的 DGX OS ISO 7.0 镜像中的软件包。
$ sudo apt update
$ sudo apt full-upgrade
$ sudo reboot
有关更多信息,请参阅 执行软件包升级。
为 DGX Station 添加对其他语言的支持#
在初始 Ubuntu OS 配置期间,系统会提示您在 DGX Station 上选择默认语言。如果您选择的语言在 DGX OS 7 软件镜像中,则除了英语外,还会安装该语言,并且您将在登录访问桌面后看到该语言。如果您选择的语言未包含在内,您仍然会在登录后看到英语,并且需要单独安装该语言。
DGX OS 7 软件镜像中包含以下语言
英语
中文(简体)
法语
德语
意大利语
葡萄牙语
西班牙语
有关如何安装语言的信息,请参阅 安装语言。
配置您的 DGX Station#
DGX 显示适配器卡为 DGX OS 提供多个显示输出,这使您可以将多个显示器连接到 DGX Station A100。如果您计划使用多个显示器,请在完成初始 DGX OS 配置后,配置 DGX Station A100 以使用多个显示器。请参阅 DGX Station 的首次启动过程。
当您首次启动 DGX Station 时,系统会提示您接受 NVIDIA 软件的最终用户许可协议。然后,系统将引导您完成初始 Ubuntu OS 配置过程。
将您要使用的显示器连接到设备背面的 mini DisplayPort (DP) 连接器。
注意
如果您的显示器本身不支持 mini DP 输入,DGX Station A100 还会提供两个 mini DP 转 DP 适配器。
每个显示器在您连接时都会自动检测到。
(可选)如有必要,调整显示配置,例如切换主显示器或更改显示器位置或方向。
打开“显示”窗口。
在“显示”窗口中,更新必要的显示设置并点击 应用。
允许多个用户远程访问 DGX 系统#
要允许多个用户远程访问 DGX 系统,DGX 系统上已安装并启用了 SSH 服务器。
将其他 Ubuntu OS 用户添加到 DGX 系统,以允许他们通过 SSH 远程登录到 DGX 系统。有关更多信息,请参阅 添加新用户帐户。
有关通过 SSH 远程登录的信息,请参阅 Ubuntu Community Help Wiki 上的 连接到 OpenSSH 服务器。
重要提示
除了 Ubuntu OS 提供的保证之外,DGX 系统不提供用户之间任何额外的隔离保证。有关通过 SSH 安全访问 DGX 系统的指南,请参阅 Ubuntu Community Help Wiki 上的 配置 OpenSSH 服务器。