安装和设置

本章提供安装和设置 NVIDIA DGX-1 的基本说明。

注册您的 DGX-1

要获得 DGX-1 系统的支持,请按照购买时收到的授权认证电子邮件中的注册说明进行操作。

注册后,您可以访问 NVIDIA 企业支持门户、获得技术支持、获取软件更新以及设置 DGX 系统的 NGC 帐户。如果您没有收到相关信息,请通过 https://www.nvidia.com/en-us/support/enterprise/ 联系 NVIDIA 企业支持团队开具案例。

有关客户支持联系信息,请参阅客户支持章节。

选择设置位置/场地准备

确定设置和操作 DGX-1 的合适位置。位置应清洁、无尘且通风良好。

一般条件

  • 准备足够宽的通道,以容纳未装箱的机箱(机箱尺寸 - 5.16 英寸高 x 17.5 英寸宽 x 34.1 英寸深)。
  • 机架必须能够容纳 134 磅重的 3U 机架式系统(机箱尺寸 - 5.16 英寸高 x 17.5 英寸宽 x 34.1 英寸深)。
  • 机架必须具有方形安装孔。
  • 在机架前方留出足够的间隙(36 英寸(91.4 厘米)),以便将设备安装到机架中。
  • 在机架后方留出大约 30 英寸(76.2 厘米)的间隙,以便充分通风和便于维修。
  • 在添加或移除设备或任何其他组件之前,务必确保机架已固定且稳定。
  • 准备足够的隔音措施:设备风扇可能会产生 72-100 dBA 的噪音。

环境条件

  • 运行环境
    • 温度:5 ◦ C 至 35 ◦ C(41 ◦ F 至 95 ◦ F)
    • 相对湿度:20% 至 85%,非冷凝
  • 气流
    • 机箱风扇最大可产生 340 CFM 的气流。
    • 请勿堵塞机箱前后方的通风区域。
    • 尽量减少机箱周围气流的任何限制。

连接

  • 电源
    • DGX-1 由四个 1600W 电源装置供电,每个电源装置的额定电压为 200-240VAC、8A、50/60 Hz。系统总功耗要求:3500W
    • 为每个电源提供 C13/C14 电缆,用于连接到兼容的 PDU。

      重要提示:请勿将提供的电缆用于任何其他产品或任何其他目的。

  • 网络:双 10GBASE-T RJ45 连接

    使用行业标准 CAT6 以太网电缆连接到网络端口。(不包含电缆。)

  • IPMI:10/100BASE-T RJ45 连接

    使用行业标准 CAT6 以太网电缆连接到网络端口。(不包含电缆。)

  • InfiniBand:数量 4 - QSFP28 端口,兼容 InfiniBand 和以太网

    使用符合 Mellanox 标准的 InfiniBand 电缆连接到 InfiniBand 端口。(不包含电缆。)

DGX-1 系统未随附网线。有关与 DGX-1 系统中安装的 Mellanox ConnectX-4 或 ConnectX-5 VPI 网卡兼容的电缆列表,请访问 Mellanox ConnectX-4 ConnectX-5 固件下载页面,选择合适的固件版本、OPN(型号)和 PSID,然后从“文档”列中选择“发行说明”。

如果您已将双端口 10GBASE-T 网络适配器 Mezzanine 更换为 10GbE SPF+ NIC,
  • 支持所有符合 SFF-8431 v4.1 和 SFF-8472 v10.4 规范的无源和有源限制直接连接电缆。
  • 支持以下 Intel 光模块和/或直接连接电缆
    表 1. SR 模块
    供应商 类型 部件号
    英特尔 双速率 1G/10G SFP+ SR(带扣环) AFBR-703SDZ-IN2
    英特尔 双速率 1G/10G SFP+ SR(带扣环) FTLX8571D3BCV-IT
    英特尔 双速率 1G/10G SFP+ SR(带扣环) AFBR-703SDDZ-IN1
    表 2. LR 模块
    供应商 类型 部件号
    英特尔 双速率 1G/10G SFP+ LR(带扣环) FTLX1471D3BCV-IT
    英特尔 双速率 1G/10G SFP+ LR(带扣环) AFCT-701SDZ-IN2
    英特尔 双速率 1G/10G SFP+ LR(带扣环) AFCT-701SDDZ-IN1
  • 以下列出了已通过部分测试的第三方 SFP+ 模块和直接连接电缆。并非所有模块都适用于所有设备。
    供应商 类型 部件号
    Finisar SFP+ SR 带扣环,10g 单速率 FTLX8571D3BCL
    Avago SFP+ SR 带扣环,10g 单速率 AFBR-700SDZ
    Finisar SFP+ LR 带扣环,10g 单速率 FTLX1471D3BCL
    Finisar 双速率 1G/10G SFP+ SR(不带扣环) FTLX8571D3QCV-IT
    Avago 双速率 1G/10G SFP+ SR(不带扣环) AFBR-703SDZ-IN1
    Finisar 双速率 1G/10G SFP+ LR(不带扣环) FTLX1471D3QCV-IT
    Avago 双速率 1G/10G SFP+ LR(不带扣环) AFCT-701SDZ-IN1

准备网络访问

  • IPMI 端口和以太网端口可以连接到您的本地 LAN。

    这些端口默认配置为 DHCP。

    • 要使用 DHCP,请将端口连接到本地 DHCP 服务器,该服务器应提供 IP 地址并为 DGX-1 分配 DNS 配置。
    • 如果 DHCP 不可用,则您需要为每个以太网端口设置静态 IP。
  • NVIDIA 建议客户遵循 BMC 管理(IPMI 端口)的最佳安全实践。这些措施包括但不限于:
    • 将 DGX-1 IPMI 端口限制为隔离的专用管理网络
    • 使用单独的防火墙子网
    • 如果专用网络不可用,则为 BMC 流量配置单独的 VLAN
  • 确保您的网络可以连接到以下地址

    如果访问这些 URL 需要使用代理,请参阅设置系统代理以获取设置说明。

开箱 DGX-1

  1. 移除收缩膜。
  2. 折叠黄色的“请勿堆叠”锥筒(如果包含)。
  3. 打开 DGX-1 主包装箱,然后取出附件和导轨套件包装箱。

    注意: 至少需要四个人员或机械辅助才能将 DGX-1 从包装箱中取出。为降低人身伤害或设备损坏的风险,请始终遵守当地职业健康和安全要求以及物料搬运指南。

    请勿使用 DGX-1 前部的把手提起设备。这些把手设计用于将设备从机架中滑出,而不是用于搬运 DGX-1 的全部重量。

  4. 移除 DGX-1 顶部的保护塑料片。
  5. 保留并保管好包装。
  6. 务必检查装箱箱中运输的每件设备。如有任何物品遗失或损坏,请联系您的供应商。

包装箱内物品

NVIDIA DGX-1 运输包装箱包括以下物品

  • NVIDIA DGX-1
  • 面板
  • 导轨硬件套件
  • 附件箱
    • 交流电源线(4 根 - IEC 60320 C13/14,3.3 英尺/1 米,与数据中心 PDU 兼容)

      重要提示:请勿将提供的电缆用于任何其他产品或任何其他目的。

    • 硬盘托架螺钉
    • 有毒物质声明和安全说明
    • 快速入门指南
    • 包含开源软件源文件的 DVD
注意: 包装箱中包含的四根电源线并非可选。所有电源线都是必需的,并且必须插入单独的 10 A 额定插座中,以实现最佳 DGX-1 运行。否则可能会导致电源冗余降低、性能降低或系统完全故障。

将 DGX-1 安装到机架中

注意:在机架中安装或维修 DGX-1 时,为防止人身伤害,您必须采取特殊的预防措施以确保系统保持稳定。提供以下指南以确保您的安全。

• 如果 DGX-1 是机架中唯一的设备,则应将其安装在机架底部。

• 在部分装满的机架中安装 DGX-1 时,请从底部到顶部加载机架,最重的组件位于机架底部。

• 如果机架配有稳定装置,请在机架中安装或维修 DGX-1 之前安装稳定器。

• DGX-1 的重量约为 134 磅,因此需要使用设备升降机才能安全地抬起设备,然后准确地将机箱导轨与机架导轨对齐。

请勿使用 DGX-1 前部的把手提起设备。这些把手设计用于将设备从机架中滑出,而不是用于搬运 DGX-1 的全部重量。

安装导轨

注意: 设备随附的导轨组件适用于深度在 26 英寸到 33.5 英寸(66 厘米到 85 厘米)之间的标准 19 英寸机架。外导轨的调节范围约为 23.5 英寸到 34 英寸(59.7 厘米到 86.4 厘米)

有关将导轨安装到机架和机箱上的详细信息,请参阅导轨包装中的说明。本文件King Slide - AH61-500章节中也提供了说明。

以下是补充说明

  1. 使用十字螺丝刀协助将导轨安装到机架上。
  2. 如有必要,请将内导轨从外滑动导轨上拆下。
  3. 按照内导轨(或与其匹配的外导轨)上的任何标记,确定连接到机箱的正确方向和位置,然后固定到机箱。
    重要提示: 确保导轨前端的加固孔位于导轨的底部,并且与 DGX-1 前部的翼形螺钉对齐。如果孔位于顶部,则表示导轨位于 DGX-1 的错误侧,并且 DGX-1 将无法正确安装到机架中。
  4. 按照外滑动导轨上的任何标记,确定相对于机架的前/后和左侧/右侧位置。
  5. 将其中一个滑动导轨的后部固定到机架上,然后延伸导轨,直到其牢固地安装到机架的前部。
  6. 将滑动导轨固定到机架的前部。
  7. 对另一个滑动导轨重复步骤 4-6。

安装 DGX-1

注意:注意:稳定危险 — 在将 DGX-1 滑出进行维修之前,必须安装机架稳定机构,或者必须将机架用螺栓固定在地板上。未能稳定机架可能会导致机架倾倒。
  1. 确认 DGX-1 已连接内导轨,并且您已将外导轨安装到机架中。
  2. 使设备前部背对机架,使用设备升降机协助将设备滑入机架,操作步骤如下

    注意:DGX-1 的重量约为 134 磅,因此需要使用设备升降机才能安全地抬起设备,然后准确地将机箱导轨与机架导轨对齐。

    1. 将内部机箱导轨与外部机架导轨的前部对齐。
    2. 将内导轨滑入外导轨,两侧保持压力均匀(插入时可能需要按下锁定卡舌)。

      当 DGX-1 完全推入机架后,您应该听到锁定卡舌“咔哒”一声锁定到位。



  3. 使用设备前部的翼形螺钉将设备锁定到位。





安装面板

面板设计为易于连接到 DGX-1 的前部。

  1. 准备 DGX-1,确保电源把手(位于电源风扇处)已向上翻起。



  2. 移开任何其他障碍物,例如电缆扎带,使其远离 DGX-1 的外边缘。
  3. 将面板放置到位,使 NVIDIA 徽标从正面可见并在左侧,将 DGX-1 角落附近的针脚与面板背面的孔对齐,然后轻轻地将面板压向 DGX-1。
    注意:注意在移除或安装面板时,请小心不要意外按下 DGX-1 右边缘的电源按钮。





    面板通过磁力固定到位。

连接电源线

  1. 打开附件箱,取出四根 C13/C14 电源线。
  2. 使用电缆将 DGX-1 右后方的四个插头中的每一个连接到 PDU。



    注意: NVIDIA 建议通过智能 PDU 连接电源,智能 PDU 能够远程重启系统。
    1. 使用连接到电源插头的电源线固定夹将每根电缆固定到 DGX-1。
    2. 将每根电缆连接到 PDU。 确保电缆分布在至少两个电路上,并且如果使用三相 PDU,则尽可能在所有相位上保持平衡。理想情况下,每根电缆应连接到不同的 PDU。
    3. 验证每根电缆是否牢固地插入 PDU。 通常会发出咔哒声以指示完全插入。

连接网线

  1. 使用以太网电缆,将双以太网端口之一(em1 或 em2)连接到您的 LAN,以便访问 NVIDIA DGX 网站、远程访问 DGX-1 上启动的应用程序容器或使用 SSH 连接到 DGX-1。



    左侧/右侧以太网端口指定取决于 DGX-1 上安装的基本操作系统软件版本,如下表所示。
    以太网端口位置 端口指定:基本操作系统软件 2.x 及更早版本 端口指定:基本操作系统软件 3.x 及更高版本
    右侧 em1 enp1s0f0
    左侧 em2 enp1s0f1
    注意: NVIDIA 建议仅将其中一个以太网端口连接到您的 LAN。如果您要连接两个以太网端口,则它们必须分别连接到不同的网络。DGX-1 在出厂时未配置为在同一网络上具有多个以太网接口。
  2. 使用以太网电缆,将 IPMI (BMC) 端口连接到您的 LAN,以便远程访问基本管理控制器 (BMC)。 验证所有网线是否牢固地插入 DGX-1 和关联的网络交换机。

设置 DGX-1

以下说明描述了 DGX-1 在交付后首次开机时发生的设置过程。准备好接受所有 EULA 并设置您的用户名和密码。

  1. 将显示器连接到 VGA 接口,并将键盘连接到任何 USB 端口。



    为获得最佳显示效果,请使用原始分辨率为 1024x768 或更低的显示器。
  2. 开启 DGX-1 电源。



    系统启动需要几分钟时间。

    根据 DGX-1 软件版本,此时在设置过程中可能会显示 NVIDIA 软件的最终用户许可协议 (EULA)。接受所有 EULA 以继续安装。

    系统会提示您配置 DGX-1 软件。

  3. 执行步骤以配置 DGX-1 软件。 T

    这些步骤基于 DGX OS 5.0。如果 DGX 系统安装了以前的 DGX OS 版本,则过程会有一些差异。

    • 选择您的语言和区域设置首选项。
    • 选择键盘的国家/地区。
    • 选择您的时区。
    • 确认 UTC 时钟设置。
    • 使用您的姓名、用户名和密码创建管理用户帐户。

      管理员用户名也用于 BMC 登录用户名和 GRUB 用户名。

      DGX OS 4 及更早版本:登录 BMC 时,在“用户 ID”和密码中输入您的用户名。务必在第一时间创建唯一的 BMC 密码。

      注意: BMC 软件不接受“sysadmin”作为用户名。如果您为此系统登录创建此用户名,则“sysadmin”将无法用于登录 BMC。
    • 创建 BMC 管理员密码。

      BMC 密码必须至少包含 13 个字符。

    • (从 DGX OS 5.0 开始可用)创建 GRUB 密码。

      您可以单击“确定”而不输入密码,这将禁用此步骤,但 NVIDIA 建议设置 GRUB 密码以增强安全性。

    • (从 DGX OS 5.0 开始可用)创建根文件系统密码。

      系统启动时,您将需要新密码来解锁根文件系统。

      仅当您在重新映像期间使用加密的根文件系统安装系统时,才会显示此步骤。

    • 为 DGX-1 选择主网络接口。
      选择主网络接口后,系统会尝试为该接口配置 DHCP,然后要求您输入名称服务器地址。
      注意: 选择主网络接口后,系统会尝试为该接口配置 DHCP,然后要求您输入系统的主机名。如果 DHCP 不可用,您可以选择手动配置网络。如果您需要在连接到 DHCP 网络的网络接口上配置静态 IP 地址,请在网络配置 – 请输入系统的主机名屏幕上选择取消。然后,系统将显示一个屏幕,其中包含手动配置网络的选项。
      • 如果 DHCP 不可用,请在网络自动配置失败对话框中单击确定并手动配置网络。
      • 如果要配置静态地址,请在 DHCP 配置完成后在对话框中单击取消以重新启动网络配置步骤。
      • 如果需要选择不同的网络接口,请在 DHCP 配置完成后在对话框中单击取消以重新启动网络配置步骤。
    • 如果出现提示,请填写请求的网络信息,例如名称服务器或域名。
    • 为 DGX-1 选择主机名。
    • 选择安装预定义软件。

      按空格键选择或取消选择要安装的软件。

      注意: 默认情况下,DGX-1 仅安装确保系统功能所需的最低软件包。您可以取消选择 OpenSSH 软件包;但是,NVIDIA 建议您保持选中此软件包,并且仅在您的 IT 安全策略要求时才卸载它。
  4. 选择确定以继续。 根据 DGX OS 软件版本,此时在设置过程中可能会显示 NVIDIA 软件的最终用户许可协议 (EULA)。接受所有 EULA 以完成安装。系统完成安装后会自动重启,然后显示系统登录提示符
    <hostname> login:
    Password:
  5. 登录。
注意:在使用 DGX-1 之前,请查看DGX OS Server 发行说明,了解重要的网络软件更新(包括安全更新)的可用性。

DGX OS Server 软件 2.x 及更早版本的安装后说明

如果您的 DGX-1 安装了软件版本 2.x 或更早版本,则适用以下说明。

要确定系统上的 DGX OS Server 软件版本,请输入以下命令。
$ grep VERSION /etc/dgx-release
DGX_SWBUILD_VERSION="2.0.4"
  1. 如果您的网络配置为 DHCP,请确保已启用动态 DNS 更新。 检查 /etc/resolv.conf 是否是指向 /run/resolvconf/resolv.conf 的链接。
    $ ls -l /etc/resolv.conf
    预期输出
    lrwxrwxrwx 1 root root 29 Dec  1 21:19 /etc/resolv.conf ->
    ../run/resolvconf/resolv.conf
    • 如果出现预期输出,请跳至步骤 2。
    • 如果未出现预期输出,请按如下方式启用动态 DNS 更新
    1. 启动Resolvconf 重新配置软件包。
      $ sudo dpkg-reconfigure resolvconf
      将显示正在配置 resolvconf屏幕。
    2. 当询问是否为动态更新准备 /etc/resolv.conf 时,选择<是>
    3. 当询问是否将原始文件附加到动态文件时,选择<否>
    4. 建议重启屏幕上选择<确定> 您无需重启。系统将返回命令行。
    5. 关闭接口,其中 <network interface> 是 em1 或 em2,以您设置为主要网络接口的接口为准。
      $ sudo ifdown <network interface>
      预期输出
      ifdown: interface <network interface> not configured
    6. 启动接口,其中 <network interface> 是 em1 或 em2,以您设置为主要网络接口的接口为准。
      $ sudo ifup <network interface>
      预期输出(最后一行)
      …
      bound to <IP address> -- renewal in …
    7. 重复步骤 1 以确认 /etc/resolv.conf 是指向 /run/resolvconf/resolv.conf 的链接。
  2. 确保已安装 nvidia-peer-memory 模块。
    $ lsmod | grep nv_peer_mem
    如果出现以下输出,则表示您的 DGX-1 设置已完成,您无需执行后续步骤。
    nv_peer_mem            16384  0
    nvidia              11911168  30
    nv_peer_mem,nvidia_modeset,nvidia_uv
    mib_core               143360  13
    rdma_cm,ib_cm,ib_sa,iw_cm,nv_peer_mem,mlx4_ib,mlx5_ib,
    ib_mad,ib_ucm,ib_umad,ib_uverbs,rdma_ucm,ib_ipoib
  3. 如果 lsmod 命令没有输出,则构建并安装 nvidia-peer-memory 模块。
    1. 获取并安装模块。
       $ sudo apt-get update
       $ sudo apt-get install --reinstall mlnx-ofed-kernel-dkms nvidia-peer-memory-dkms
      
      预期输出。
       DKMS: install completed.
       Processing triggers for initramfs-tools (0.103ubuntu4.2) ...
       update-initramfs: Generating /boot/initrd.img-4.4.0-45-generic
      
    2. 将模块添加到 Linux 内核。
       $ sudo modprobe nv_peer_mem
      
      此命令没有预期输出。
    3. 重复步骤 2 以确认已添加 nvidia-peer-memory 模块。

更新 DGX-1 软件

您必须注册 DGX-1 才能接收软件更新。注册后,每当有新的软件更新可用时,您都会收到电子邮件通知。

注意: 更新软件可确保您的 DGX-1 服务器包含重要的更新,包括安全更新。Ubuntu 安全公告站点 (https://usn.ubuntu.com/) 列出了已知的常见漏洞和风险 (CVE),包括可以通过更新 DGX OS 软件来解决的漏洞和风险。 

以下说明介绍了如何通过 Internet 连接到 NVIDIA 公共存储库来更新 DGX-1 软件。此过程会将 DGX-1 系统映像更新到整个 DGX-1 软件堆栈(包括驱动程序)的最新 QA 版本。

这些说明适用于从最新软件版本进行点更新,例如从 3.1.4 更新到 3.1.6。要从 DGX OS Server 版本 1.0、2.0 或 2.1 升级,请参阅发行说明以获取详细说明。

注意
以下说明更新所有可从您配置的软件源获取更新的软件,包括您自己安装的应用程序。如果您要阻止应用程序更新,您可以指示 Ubuntu 软件包管理器保留当前版本。有关更多信息,请参阅 Ubuntu 社区帮助 Wiki 上的软件包保持介绍

使用 DGX-1 控制台上的命令执行更新。

  1. 运行软件包管理器。
    $ sudo apt update
  2. 检查将更新哪些软件。
    $ sudo apt full-upgrade -s

    要阻止应用程序更新,请指示 Ubuntu 软件包管理器保留当前版本。请参阅软件包保持介绍

  3. 升级到最新版本。
    $ sudo apt full-upgrade

    回答出现的任何问题。

    大多数问题都需要回答“是”或“否”。当要求选择要使用的 grub 配置时,请选择系统上当前的配置。

    其他问题将取决于更新之前安装了哪些其他软件包,以及这些软件包如何与更新交互。

  4. 重启系统。

管理 CPU 缓解措施

DGX OS Server 包含用于缓解 CPU 推测性旁路信道漏洞的安全更新。这些缓解措施可能会降低深度学习和机器学习工作负载的性能。

如果您的 DGX 系统安装包含其他措施来缓解这些漏洞(例如集群级别的措施),您可以禁用单个 DGX 节点的 CPU 缓解措施,从而提高性能。此功能从 DGX OS Server 版本 4.4.0 开始提供。

确定 DGX 系统的 CPU 缓解状态

如果您不知道是否已启用或禁用 CPU 缓解措施,请发出以下命令。

$ cat /sys/devices/system/cpu/vulnerabilities/* 
  • 如果输出由多行以 Mitigation: 为前缀的行组成,则表示已启用 CPU 缓解措施。

    示例

    KVM: Mitigation: Split huge pages
    Mitigation: PTE Inversion; VMX: conditional cache flushes, SMT vulnerable
    Mitigation: Clear CPU buffers; SMT vulnerable
    Mitigation: PTI
    Mitigation: Speculative Store Bypass disabled via prctl and seccomp
    Mitigation: usercopy/swapgs barriers and __user pointer sanitization
    Mitigation: Full generic retpoline, IBPB: conditional, IBRS_FW, STIBP: conditional, RSB filling
    Mitigation: Clear CPU buffers; SMT vulnerable
    
  • 如果输出由多行以 Vulnerable 为前缀的行组成,则表示已禁用 CPU 缓解措施。

    示例

    KVM: Vulnerable
    Mitigation: PTE Inversion; VMX: vulnerable
    Vulnerable; SMT vulnerable
    Vulnerable
    Vulnerable
    Vulnerable: __user pointer sanitization and usercopy barriers only; no swapgs barriers
    Vulnerable, IBPB: disabled, STIBP: disabled
    Vulnerable
    

禁用 CPU 缓解措施

注意
执行以下说明将禁用 DGX OS Server 软件提供的 CPU 缓解措施。
  1. 安装 nv-mitigations-off 软件包。
    $ sudo apt install nv-mitigations-off -y
  2. 重启系统。
  3. 验证 CPU 缓解措施是否已禁用。
    $ cat /sys/devices/system/cpu/vulnerabilities/*
    输出应包含多个 Vulnerable 行。有关示例输出,请参阅确定 DGX 系统的 CPU 缓解状态

重新启用 CPU 缓解措施

  1. 移除 nv-mitigations-off 软件包。
    $ sudo apt purge nv-mitigations-off
  2. 重启系统。
  3. 验证 CPU 缓解措施是否已启用。
    $ cat /sys/devices/system/cpu/vulnerabilities/*
    输出应包含多个 Mitigations 行。有关示例输出,请参阅确定 DGX 系统的 CPU 缓解状态