配置和管理 DGX-1

使用 BMC

DGX-1 包括一个基板管理控制器 (BMC),使您可以独立于 CPU 或操作系统来管理和监控 DGX-1。您可以通过以太网连接到 IPMI 端口来远程访问 BMC。

本节介绍如何访问 BMC,并介绍一些您可以通过 BMC 完成的常见任务。它并非旨在全面描述 BMC 的所有功能。

要远程访问 BMC

  1. 确保已将 DGX-1 上的 IPMI 端口连接到您的 LAN。
  2. 在您的 LAN 中打开支持 Java 的浏览器,然后转到 http://<IPMI IP Address>/. 使用 Firefox 或 Internet Explorer。BMC 不正式支持 Google Chrome。

  3. 登录。 您的初始登录凭据基于您首次设置 DGX-1 时创建的凭据。输入您的用户名作为用户 ID 和密码。用户 ID:<您的用户名> 密码:<您的用户名>。
  4. 请务必立即更改密码,以确保 BMC 的安全。 请参阅下一节,了解有关如何更改 BMC 密码的说明。

为远程访问创建唯一的 BMC 密码

首次打开 DGX-1 电源并进行设置时,您为系统设置了用户名和密码。这些凭据也用于远程登录 BMC,但 BMC 密码是用户名。

强烈建议您尽快创建唯一的密码。

按如下方式创建唯一的 BMC 密码

  1. 在您的 LAN 中打开支持 Java 的 Web 浏览器,然后转到 http://<IPMI IP address>/。

    使用 Firefox 或 Internet Explorer。BMC 不正式支持 Google Chrome。

  2. 使用您首次设置 DGX-1 时创建的用户名登录。 输入您的用户名作为用户 ID 和密码:用户 ID:<您的用户名> 密码:<您的用户名>
  3. 从顶部菜单中,单击Configuration(配置),然后选择User(用户)
  4. 选择您的用户名,然后单击Modify User(修改用户)
  5. Modify User(修改用户)对话框中,选择Change Password(更改密码),然后在Password(密码)Confirm Password(确认密码)框中输入您的新密码。
  6. 完成后,单击Modify(修改)

查看系统信息

BMC 打开到仪表板,其中显示有关系统和系统组件的信息,例如温度和电压。

提交 BMC 日志文件

BMC 提供系统活动和状态的自动日志记录。NVIDIA 企业支持团队使用日志文件来协助进行故障排除。请按照以下说明获取日志文件并将其发送给 NVIDIA 企业支持。

  1. 登录到 BMC,然后从顶部菜单中单击 Server Health(服务器运行状况),然后选择 Event Log(事件日志)
  2. 确保在Format of Download Event Logs(下载事件日志的格式)中选择了Text(文本)

  3. 单击 Save Event Logs(保存事件日志)以下载事件日志。

确定总功耗

您可以使用 BMC 仪表板确定 DGX-1 的总功耗,如下所示

  1. 登录到 BMC。
  2. 在 BMC 仪表板中,找到Sensor Monitoring(传感器监控)区域,然后向下滚动页面,直到看到 PSU Input(PSU 输入)行。
  3. 将所有 PSU 的值相加。 在此示例中,总功耗将为 216+216+135+27 = 594 瓦

访问 DGX-1 控制台

DGX-1 BMC 使用 JViewer 查看控制台。
注意: 要将 JViewer 与 Mac OS 结合使用,请先安装 XQuartz,可从 https://www.xquartz.org 获取。
  1. 登录到 BMC。
  2. 从顶部菜单中,单击 Remote Control(远程控制),然后选择 Console Redirection(控制台重定向)
  3. 单击 Java Console(Java 控制台)以打开弹出窗口。 该窗口提供对 DGX-1 控制台的交互式控制。

远程关闭/重启系统

从 DGX-1 控制台窗口

如果您已打开 Java Viewer (Remote Control(远程控制)->Console Redirection(控制台重定向)) 以查看控制台窗口,则可以按如下方式重启、重置或关闭 DGX-1
注意: 要将 JViewer 与 Mac OS 结合使用,请先安装 XQuartz,可从 https://www.xquartz.org 获取。
  1. 从 JViewer 顶部菜单中,单击 Power(电源),然后从可用选项中选择,具体取决于您要执行的操作。

  2. Power Control(电源控制)对话框中,单击 Yes(是),然后单击 OK(确定),然后等待系统执行预期操作。

从 BMC UI

  1. 登录到 BMC。
  2. 从顶部菜单中,单击 Remote Control(远程控制),然后选择 Server Power Control(服务器电源控制)

  3. 根据您希望系统执行的操作,从可用选项中选择,然后单击 Perform Action(执行操作)

设置 Active Directory

您可以使用 Active Directory (AD) 身份验证访问 NVIDIA DGX-1 系统,以便您的组织使用。最简单的方法是使用 BMC 仪表板。

  1. 登录到 BMC。
  2. 从顶部菜单中,单击 Configuration(配置),然后选择 Active Directory
  3. 单击 Advanced Settings(高级设置)以打开Advanced Active Directory Settings(高级 Active Directory 设置)弹出窗口,然后填写您的网络信息。

    1. 选中 Active Directory Authentication Enable(启用 Active Directory 身份验证)复选框。
    2. 请勿填写“Secret Username(密钥用户名)”和“Secret Password(密钥密码)”框。
    3. 填写 User Domain Name(用户域名)框和 Domain Controller Server Address(域控制器服务器地址)框中的一个。
    4. 完成后,单击 Save(保存)
  4. 根据需要添加角色组。
    1. 单击第一个空的 Role Group(角色组)行,然后单击 Add Role Group(添加角色组)
    2. Add Role Group(添加角色组)对话框中输入您的角色组信息。

    3. 请注意,User(用户)角色组权限不允许访问 BMC 仪表板。

      以下是每个角色组权限选项的说明。

      角色组权限 说明
      管理员 访问所有 BMC 仪表板功能
      操作员 对 BMC 仪表板控件的只读访问权限
      用户 无权访问 BMC 仪表板;支持 ipmitool
      回调 无权访问 BMC 仪表板;支持 ipmitool
      OEM 专有 对 BMC 仪表板控件的只读访问权限,但用户、DNS、网络和 PEF 功能除外
    4. 根据需要启用扩展权限。
    5. 完成后,单击 Add(添加)

为 BMC 配置静态 IP 地址

本节介绍如何为 BMC 设置静态 IP 地址。如果您的网络不支持 DHCP,则需要执行此操作。

使用以下部分中描述的方法之一

使用 ipmitool 配置 BMC 静态 IP 地址

本节介绍如何从 Ubuntu 命令行设置 BMC 的静态 IP 地址。

注意: 如果您无法远程访问 DGX-1,请将显示器(1024x768 或更低分辨率)和键盘直接连接到 DGX-1。
要查看当前设置,请输入以下命令。
$ sudo ipmitool lan print 1
Set in Progress     : Set Complete
Auth Type Support    : MD5
Auth Type Enable     : Callback : MD5
                     : User  : MD5
                     : Operator : MD5
                     : Admin : MD5
                     : OEM   : MD5
IP Address Source    : DHCP Address
IP Address           : 10.31.241.190
Subnet Mask          : 255.255.255.0
MAC Address          : 54:ab:3a:72:08:a9
SNMP Community String   : Quanta
IP Header            : TTL=0x40 Flags=0x40 Precedence=0x00 TOS=0x10
BMC ARP Control      : ARP Responses Enabled, Gratuitous ARP Disabled
Gratituous ARP Intrvl   : 0.0 seconds
Default Gateway IP   : 10.31.241.1
Default Gateway MAC  : 00:00:00:00:00:00
Backup Gateway IP       : 0.0.0.0
Backup Gateway MAC   : 00:00:00:00:00:00
802.1q VLAN ID       : Disabled
802.1q VLAN Priority : 0RMCP+ Cipher Suites  : 0,1,2,3,6,7,8,11,12,15,16,17
Cipher Suite Priv Max   : XaaaaaaaaaaaXXX
                     :  X=Cipher Suite Unused
                     :  c=CALLBACK
                     :  u=USER
                     :  o=OPERATOR
                     :  a=ADMIN
                     :  O=OEM
要为 BMC 设置静态 IP 地址,请执行以下操作。
  1. 将 IP 地址源设置为static(静态)
    $ sudo ipmitool lan set 1 ipsrc static
  2. 设置相应的地址信息。
    • 要设置 IP 地址(BIOS 设置中的“Station IP address(工作站 IP 地址)”),请输入以下内容,并将斜体文本替换为您的信息。
      $  sudo ipmitool lan set 1 ipaddr  10.31.241.190
    • 要设置子网掩码,请输入以下内容,并将斜体文本替换为您的信息。
      $  sudo ipmitool lan set 1 netmask  255.255.255.0
    • 要设置默认网关 IP(BIOS 设置中的“Router IP address(路由器 IP 地址)”),请输入以下内容,并将斜体文本替换为您的信息。
      $  sudo ipmitool lan set 1 defgw ipaddr  10.31.241.1

使用系统 BIOS 配置 BMC 静态 IP 地址

本节介绍当您无法远程访问 DGX-1 时如何设置 BMC 的静态 IP 地址。此过程涉及在系统启动期间设置 BMC IP 地址。

  1. 将键盘和显示器(1024x768 或更低分辨率)连接到 DGX-1,然后打开 DGX-1 电源。
  2. 当您看到 NVIDIA 徽标时,按 Del 进入 BIOS 实用程序设置屏幕。

  3. 在 BIOS 设置实用程序屏幕上,导航到顶部菜单上的 Server Mgmt(服务器管理)选项卡,然后滚动到 BMC network configuration(BMC 网络配置)并按 Enter

  4. 滚动到 Configuration Address Source(配置地址源)并按 Enter,然后在 Configuration Address source(配置地址源)弹出窗口中,选择 Static on next reset(下次重置时静态),然后按 Enter

  5. 根据需要设置工作站 IP 地址、子网掩码和路由器 IP 地址的地址,方法是为每个地址执行以下操作:
    1. 滚动到特定项目并按 Enter
    2. 在弹出窗口中输入相应的信息,然后按 Enter。

  6. 完成所有更改后,按 F10 保存并重置,然后在确认弹出窗口中选择 Yes(是),然后按 Enter

    您现在可以通过网络访问 BMC。

使用 BMC 仪表板配置 BMC 静态 IP 地址

  1. 登录到 BMC,然后从顶部菜单中单击 Configuration(配置),然后选择 Network Settings(网络设置)
  2. 在“Network Settings(网络设置)”页面的IPv4 Configuration(IPv4 配置)部分中,清除 Use DHCP(使用 DHCP)复选框,然后为 IPv4 Address(IPv4 地址)Subnet Mask(子网掩码)Default Gateway(默认网关)字段输入相应的值。

  3. 完成后,单击 Save(保存)

为网络端口配置静态 IP 地址

在 DGX-1 的初始启动设置过程中,您有机会为网络端口配置静态 IP 地址。如果您当时未进行设置,则可以按照以下说明从 Ubuntu 命令行配置静态 IP 地址。

注意: 如果您无法远程访问 DGX-1,请将显示器(1024x768 或更低分辨率)和键盘直接连接到 DGX-1。
  1. 根据您已连接到网络的物理以太网端口,确定要配置的端口指定。

    根据 DGX-1 上安装的 DGX Base OS 软件版本使用以下端口指定

    以太网端口位置 端口指定:Base OS 软件 2.x 及更早版本 端口指定:Base OS 软件 3.x 及更高版本
    右侧 em1 enp1s0f0
    左侧 em2 enp1s0f1
  2. 编辑接口文件。
    $ sudo vi /etc/network/interfaces
    ## Configure a static IP
    auto em1
    iface em1 inet static
      address 192.168.1.14
      gateway 192.168.1.1
      netmask 255.255.255.0
      network 192.168.1.0
      broadcast 192.168.1.255
    请咨询您的网络管理员,以获取适合您网络的地址,并使用您在步骤 1 中确定的端口指定。
  3. 完成编辑后,按 ESC 切换到命令模式,然后将文件保存到磁盘并退出编辑器。
    :wq
  4. 重新启动网络服务以使更改生效。
    $ sudo /etc/init.d/networking restart

获取 MAC 地址

以下说明解释了如何确定 DGX-1 的 IPMI 端口 (BMC) 以及两个以太网端口的 MAC 地址。

端口从左到右依次为 IPMI (BMC)、em2(或 enp1s0f1)、em1(或 enp1s0f0)。

  1. 将显示器(1024x768 或更低分辨率)和键盘连接到 DGX-1。
  2. 打开 DGX-1 电源或重新启动。
  3. 在 NVIDIA 徽标启动屏幕上,按 [F2][Del] 进入 BIOS 设置屏幕。

  4. 从顶部菜单中选择 Advanced(高级) 选项卡,然后向下滚动以查看两个 Quanta Dual Port 10G BASE-T Mezzanine 项目。

    第一个项目显示以太网端口 em1 的 MAC 地址,第二个项目显示 em2 的 MAC 地址。
  5. 导航到顶部菜单中的 Server Mgmt(服务器管理) 并选择它,然后向下滚动到 BMC network configuration(BMC 网络配置) 并选择它。

  6. 向下滚动以查看工作站 MAC 地址。

    这显示了 BMC 的 MAC 地址。

重置 DGX-1 中的 GPU

NVIDIA® DGX-1™ GPU 可能需要在维护或维修工作期间重置。例如,当 GPU 在同一位置出现双位错误或重复的单位错误时,页面将被停用。要排除停用的页面(用户/应用程序不可用),需要重置 GPU。对于 DGX-1 平台,由于各个 GPU 通过 NVLink 链接,因此无法单独重置,因此必须同时重置所有 GPU。

重置系统中所有 GPU 的唯一方法是重新启动系统。

更改 Mellanox 网卡端口类型

数据中心环境使用的网络连接类型可能有所不同。NVIDIA DGX-1 系统配备了 4 个单端口 Mellanox ConnectX-4 VPI MCX455A-ECAT 模块或 4 个单端口 Mellanox ConnectX-5 VPI MCX555A-ECAT 模块。默认情况下,这些模块配置为 InfiniBand 端口,但您可以选择将其转换为以太网端口。
为了使这些更改正常工作,配置的端口必须连接到与端口配置匹配的网络交换机。换句话说,如果端口配置设置为 InfiniBand,则外部交换机应为带有相应 InfiniBand 电缆的 InfiniBand 交换机。同样,如果端口配置设置为以太网,则交换机也应为以太网。

下载 Mellanox 软件工具

这些说明仅适用于安装了 DGX OS Server 版本 3.1 或更早版本的 DGX-1 服务器。DGX OS Server 版本 4.0 及更高版本已包含 Mellanox 软件工具 (MST)。

请勿在 DGX OS Server 版本 4.0 及更高版本上安装 Mellanox 软件工具 (MST);安装 MST 将损坏包含的 MST 安装。

  1. 下载 http://www.mellanox.com/downloads/MFT/mft-4.6.0-48-x86_64-deb.tgz
  2. 解压下载的软件包。
  3. 切换到下载目录 mft-4.6.0-48-x86_64-deb/ ,然后运行安装脚本。
    $ install.sh

启动 Mellanox 软件工具

  1. 启动 mst 驱动程序
    $ sudo mst start
  2. 要验证 Mellanox 软件工具 (MST) 服务是否正在运行,请输入以下内容。
    ~$ sudo mst status 
    • 以下输出指示服务运行。
      MST modules:
      ------------
      MST PCI module is not loaded
      MST PCI configuration module is not loaded
      
      PCI Devices:
      ------------
      05:00.0
      84:00.0
      0c:00.0
      8b:00.0
    • 以下输出指示服务正在运行。
       MST modules:
      ------------
      MST PCI module is not loaded
      MST PCI configuration module loaded
      MST devices:
      ------------
      /dev/mst/mt4115_pciconf0 - PCI configuration cycles access.
                                 domain:bus:dev.fn=0000:05:00.0 addr.reg=88
      data.reg=92
                                 Chip revision is: 00
      /dev/mst/mt4115_pciconf1 - PCI configuration cycles access.
                                 domain:bus:dev.fn=0000:0c:00.0 addr.reg=88
      data.reg=92
                                 Chip revision is: 00
      /dev/mst/mt4115_pciconf2 - PCI configuration cycles access.
                                 domain:bus:dev.fn=0000:84:00.0 addr.reg=88
      data.reg=92
                                 Chip revision is: 00
      /dev/mst/mt4115_pciconf3 - PCI configuration cycles access.
                                 domain:bus:dev.fn=0000:8b:00.0 addr.reg=88
      data.reg=92
                                 Chip revision is: 00
      -1:~$

确定当前端口配置

要确定当前端口配置,请输入以下内容:

~$ ibv_devinfo | grep -e "hca_id\|link_layer" 
  • 以下输出指示端口配置为 InfiniBand。
    hca_id: mlx5_3  link_layer:  InfiniBand
    hca_id: mlx5_2  link_layer:  InfiniBand
    hca_id: mlx5_1  link_layer:  InfiniBand
    hca_id: mlx5_0  link_layer:  InfiniBand 
  • 以下输出指示端口配置为以太网。
    hca_id: mlx5_3  link_layer:  Ethernet
    hca_id: mlx5_2  link_layer:  Ethernet
    hca_id: mlx5_1  link_layer:  Ethernet
    hca_id: mlx5_0  link_layer:  Ethernet 

将端口从 InfiniBand 切换到以太网

确保您已安装 Mellanox 软件工具 (MST) 服务,并且已按照 下载和启动 Mellanox 软件工具 部分中的说明启动它们。
  1. 将所有四个端口的配置更改为以太网。
    ~$ sudo mlxconfig -y -d /dev/mst/mt4115_pciconf0 set LINK_TYPE_P1=2
    ~$ sudo mlxconfig -y -d /dev/mst/mt4115_pciconf1 set LINK_TYPE_P1=2
    ~$ sudo mlxconfig -y -d /dev/mst/mt4115_pciconf2 set LINK_TYPE_P1=2 
    ~$ sudo mlxconfig -y -d /dev/mst/mt4115_pciconf3 set LINK_TYPE_P1=2 
  2. 验证配置更改是否已应用。
    ~$ sudo mlxconfig query |grep -e "LINK_TYPE\|PCI\ device" 
    PCI device: /dev/mst/mt4115_pciconf3 LINK_TYPE_P1 ETH(2)
    PCI device: /dev/mst/mt4115_pciconf2 LINK_TYPE_P1 ETH(2)
    PCI device: /dev/mst/mt4115_pciconf1 LINK_TYPE_P1 ETH(2)
    PCI device: /dev/mst/mt4115_pciconf0 LINK_TYPE_P1 ETH(2)
    注意: 这些更改将在服务器重新启动后生效。
  3. 重新启动 DGX-1。
  4. DGX-1 重新联机后,确保以太网是活动链路层。
    ~$ ibv_devinfo |grep -e "hca_id\|link_layer" 
    hca_id: mlx5_3  link_layer:  Ethernet
    hca_id: mlx5_2  link_layer:  Ethernet
    hca_id: mlx5_1  link_layer:  Ethernet
    hca_id: mlx5_0  link_layer:  Ethernet 

将端口从以太网切换到 InfiniBand

确保您已安装 Mellanox 软件工具 (MST) 服务,并且已按照 下载和启动 Mellanox 软件工具 部分中的说明启动它们。
  1. 将所有四个端口的配置更改为 InfiniBand。
    ~$ sudo mlxconfig -y -d /dev/mst/mt4115_pciconf3 set LINK_TYPE_P1=1
    ~$ sudo mlxconfig -y -d /dev/mst/mt4115_pciconf2 set LINK_TYPE_P1=1
    ~$ sudo mlxconfig -y -d /dev/mst/mt4115_pciconf1 set LINK_TYPE_P1=1
    ~$ sudo mlxconfig -y -d /dev/mst/mt4115_pciconf0 set LINK_TYPE_P1=1 
  2. 验证配置更改是否已应用。
    ~$ sudo mlxconfig query |grep -e "LINK_TYPE\|PCI\ device" 
    PCI device: /dev/mst/mt4115_pciconf3 LINK_TYPE_P1 IB(1)
    PCI device: /dev/mst/mt4115_pciconf2 LINK_TYPE_P1 IB(1)
    PCI device: /dev/mst/mt4115_pciconf1 LINK_TYPE_P1 IB(1)
    PCI device: /dev/mst/mt4115_pciconf0 LINK_TYPE_P1 IB(1)
    注意: 这些更改将在服务器重新启动后生效。
  3. 重新启动 DGX-1。
  4. DGX-1 重新联机后,确保 InfiniBand 是活动链路层。
    ~$ ibv_devinfo |grep -e "hca_id\|link_layer" 
    hca_id: mlx5_3 link_layer: InfiniBand
    hca_id: mlx5_2 link_layer: InfiniBand
    hca_id: mlx5_1 link_layer: InfiniBand
    hca_id: mlx5_0 link_layer: InfiniBand

启用 USB 3.0

DGX-1 上有两个 USB 3.0 端口。但是,在系统 BIOS 中,它们默认设置为 USB 2.0。要获得 USB 3.0 性能,您必须在系统 BIOS 中启用 USB 3.0,如本节所述。

  1. 将显示器(1024x768 或更低分辨率)和键盘连接到 DGX-1。
  2. 打开 DGX-1 电源或重新启动。
  3. 在 NVIDIA 徽标启动屏幕上,按 [F2][Del] 进入 BIOS 设置屏幕。

  4. 从顶部菜单中选择 IntelRCSetup 选项卡,然后向下滚动到 USB Configuration(USB 配置) 并按 Enter

  5. IntelRCSetup 屏幕中,向下滚动到 PCH Configuration(PCH 配置) 并按 Enter

  6. 滚动到 xHCI Mode(xHCI 模式) 并按 Enter,然后在 xHCI Mode(xHCI 模式) 对话框中选择 Enabled(已启用) 并按 Enter

  7. F10,然后在确认弹出窗口中选择 Yes(是) 并按 Enter USB 3.0 将在系统重新启动后启用。