首次启动设置#
本节提供有关首次启动 DGX A100 系统后的设置过程的信息。
虽然 NVIDIA 合作伙伴网络人员或 NVIDIA 现场服务工程师将在现场安装 DGX A100 系统并执行首次启动设置,但此处提供的首次启动设置说明仅供参考,并支持服务器的任何重镜像。
设置系统#
这些说明描述了首次交付后或服务器重新镜像后首次打开 DGX A100 系统电源时发生的设置过程。
准备好接受所有最终用户许可协议 (EULA),并设置您的用户名和密码。要预览 EULA,请访问 https://www.nvidia.com/en-us/data-center/dgx-systems/support/ 并单击 DGX EULA 链接。
按照“连接到控制台”中的说明连接到 DGX A100 控制台。
通过以下方式之一打开 DGX A100 系统的电源
使用物理电源按钮。
使用远程 BMC
如果 DGX OS 是使用加密的根文件系统安装的,系统将提示您解锁驱动器。
在 crypt: 提示符下输入
nvidia3d
。您将看到 NVIDIA 软件的最终用户许可协议 (EULA)。
接受 EULA 以继续安装。
执行步骤以配置 DGX A100 软件。
选择您的语言和区域设置首选项。
选择您键盘的国家/地区。
选择您的时区。
确认 UTC 时钟设置。
使用您的姓名、用户名和密码创建一个管理用户帐户。
管理员用户名也用于 BMC 登录用户名和 GRUB 用户名。
注意
BMC 软件将不接受 “sysadmin” 作为用户名。如果您为此系统登录创建此用户名,则 “sysadmin” 将无法用于登录 BMC。
创建 BMC 管理员密码。
BMC 密码长度必须最少为 13 个字符,最多为 20 个字符。
注意
创建登录凭据后,默认的 admin/dgxluna.admin 凭据将不再起作用。
创建 GRUB 密码。
您的 GRUB 密码必须至少有 8 个字符。
如果少于 8 个字符,您将无法继续。
您可以选择“确定”而不输入密码,这将禁用此步骤,但 NVIDIA 建议设置 GRUB 密码以增强安全性。
创建根文件系统密码短语。
当系统启动时,您将需要新的密码短语来解锁根文件系统。
仅当您在 DGX OS 安装期间使用加密的根文件系统安装系统时,才会出现此步骤。
为 DGX A100 系统选择一个主网络接口;例如,enp226s0。
这通常应该是您将用于后续系统配置或带内管理的接口。请勿选择 enp37s0f3u1u3c2(或 bmc_redfish0 或类似名称),因为它仅用于带外管理或将来支持访问 Redfish API 的带内工具。
选择主网络接口后,系统会尝试为接口配置 DHCP,然后要求您输入名称服务器地址。
如果没有 DHCP 可用,请在“网络自动配置失败”对话框中单击“确定”,然后手动配置网络。
如果您要配置静态地址,请在 DHCP 配置完成后在对话框中单击“取消”以重新启动网络配置步骤。
如果您需要选择不同的网络接口,请在 DHCP 配置完成后在对话框中单击“取消”以重新启动网络配置步骤。
如果出现提示,请填写请求的网络信息,例如名称服务器或域名。
为 DGX A100 系统选择主机名。
完成设置过程后,DGX A100 系统会自动重启,然后显示登录提示符。
安装后任务#
本节介绍在初始系统首次启动设置后建议执行的任务。
注意
RAID 1 重建可能会暂时影响系统性能。当系统在恢复映像并运行首次启动设置后启动时,软件 RAID 将开始重建 RAID 1 阵列的过程,这将创建包含该软件的驱动器的镜像(或重新同步)。系统性能可能会在 RAID 1 重建过程中受到影响,这可能需要一个小时才能完成。
在此期间,nvsm show health
命令会报告警告,指出 RAID 卷正在重新同步。
您可以使用 sudo nvsm show volumes 检查 RAID 1 重建过程的状态,然后在 /systems/localhost/storage/volumes/md0/rebuild
下检查输出。
获取软件更新#
为确保您运行的是最新版本,您可能需要更新软件。
更新软件可确保您的 DGX A100 系统包含重要的更新,包括安全更新。Ubuntu 安全公告站点 (https://usn.ubuntu.com/) 列出了已知的常见漏洞和暴露 (CVE),包括那些可以通过更新 DGX OS 软件来解决的漏洞。
运行软件包管理器。
$ sudo apt update
升级到最新版本。
$ sudo apt full-upgrade
启用 srp 守护程序#
srp_daemon 随 Mellanox 驱动程序一起提供,默认情况下处于禁用状态。仅当您使用 InfiniBand 上的 RDMA 时才需要它(请参阅 SRP - SCSI RDMA 协议)。如有必要,您可以通过发出以下命令来启用 srp_daemon
$ sudo systemctl enable srp_daemon.service
$ sudo systemctl enable srptools.service