DGX Station 用户指南

面向用户和管理员的文档,解释如何安装、设置和维护 DGX Station。

关于本指南

DGX Station 用户指南 解释了如何安装、设置和维护 NVIDIA® DGX Station™

本指南面向熟悉 Ubuntu Desktop Linux 操作系统(包括命令行和 sudo 命令的使用)的用户和管理员。

注意: 本指南中关于软件管理的说明仅适用于 DGX OS Desktop。 如果随 DGX Station 提供的 DGX OS Desktop 软件已被用于 Red Hat Enterprise Linux 或 CentOS 的 DGX 软件取代,则这些说明不适用。

有关帮助您使用 DGX Station 的更多信息,请参阅下表。

任务 更多信息
使用 Ubuntu Desktop Linux 操作系统
了解关于 DGX StationDGX OS Desktop 软件 DGX OS Desktop 发行说明
使用 DGX Station 下载并运行用于深度学习框架的容器 NGC Container Registry for DGX 用户指南
使用针对 NVIDIA DGX 系统优化的深度学习框架 NVIDIA 深度学习框架文档
使用 DGX OS Desktop 中的工具和库来开发深度学习框架 NVIDIA 深度学习 SDK 文档

1. NVIDIA® DGX Station™ 简介

NVIDIA DGX Station 是一款快速的多 GPU 工作站,适用于深度学习和 AI 分析。 您可以使用 DGX Station 运行神经网络并部署深度学习模型。 由于 DGX Station 在软件上与 NVIDIA DGX-1 服务器兼容,因此您也可以使用 DGX Station 来优化应用程序,使其在生产 DGX-1 集群上运行。



Photograph showing the front and the side of the DGX Station.

1.1. 包装箱内物品

  • DGX Station
  • 包含以下物品的附件箱
    • 快速入门指南
    • 交流电源线
    • 3 个 DisplayPort™ 1.2 转 HDMI 2.0 适配器
    • USB 恢复闪存驱动器,其中包含操作系统镜像和 CUDA 工具包的备份副本
    • DVD-ROM,其中包含安装在 DGX Station 上的开源软件的源代码
    • 有毒物质声明和安全说明
    • 符合性声明
    • 重新包装说明/运输途中

检查包装箱中每件设备。 如果有任何物品缺失或损坏,请联系您的供应商。

1.2. DGX OS Desktop 软件摘要

DGX Station 提供的 DGX OS Desktop 软件包括下载和运行深度学习框架容器所需的软件。 该软件已安装在 DGX Station 上,但许可要求规定软件必须单独提供的除外。 任何必须单独提供的软件会在 DGX Station 首次开机时自动安装。

有关 DGX OS Desktop 软件的详细信息,请参阅 DGX OS Desktop 发行说明

注意

您可以通过安装用于 Red Hat Enterprise Linux 或 CentOS 的 DGX 软件来替换随 DGX Station 提供的 DGX OS Desktop 软件。 有关说明,请参阅

1.3. DGX Station 硬件摘要

处理器

组件 数量 描述
CPU 1 Intel Xeon E5-2698 v4 2.2 GHz(20 核)
GPU - 当前型号 4 NVIDIA Tesla® V100-DGXS-32GB,每 GPU 32 GB(总共 128 GB)GPU 内存
GPU - 早期型号 4 NVIDIA Tesla V100-DGXS-16GB,每 GPU 16 GB(总共 64 GB)GPU 内存

系统内存和存储

组件 数量 单元容量 总容量 描述
系统内存 8 32 GB 256 GB ECC 寄存式 RDIMM DDR4 SDRAM
注意: 您可以更换所有八个出厂安装的 32 GB DIMM,换成 64 GB DIMM,从而获得 512 GB 的总容量。
数据存储 3 1.92 TB 5.76 TB 2.5 英寸 6 Gb/秒 SATA III SSD,RAID 0 配置
注意:DGX OS Desktop 4.4.0 或用于 Red Hat Enterprise Linux 或 CentOS EL7-20.02 的 DGX 软件起:您可以添加四个 1.92 TB SSD 用于数据存储,从而在 RAID 0 配置中获得 13.44 TB 的总容量。
操作系统存储 1 1.92 TB 1.92 TB 2.5 英寸 6 Gb/秒 SATA III SSD

2. 设置 NVIDIA DGX Station

在使用 DGX Station 之前,请确保已完成其初始设置。

2.1. DGX Station 的选址

小心

DGX Station88 磅40 公斤)。 请勿尝试抬起 DGX Station。 而是将 DGX Station 从包装箱中取出,然后借助其装配的脚轮将其滚动到位。

为防止损坏 DGX Station 内部的组件,请勿使 DGX Station 遭受过度振动或机械冲击。 移动或运输 DGX Station 后,请目视检查连接 GPU 的 NVLINK 桥接器以及驱动器仓中的驱动器托架,查看它们是否已移位。 如果任何这些组件已移位,请在操作 DGX Station 之前重新安装组件。

DGX Station 放置在清洁、无尘、通风良好且靠近额定接地交流电源插座的位置。

DGX Station 的后方和侧面留出大约 5 英寸(12.5 厘米)的间隙,以便为设备散热提供充足的气流。

操作 DGX Station 时,请将环境温度和相对湿度保持在以下范围内

  • 环境温度:10°C 至 30°C(50°F 至 86°F)

  • 相对湿度:10% 至 80%(非冷凝)

始终保持 DGX Station 直立。 请勿将设备侧放。



Line drawing showing the DGX Station upright with a check mark to indicate that this position is correct and laid flat with a cross mark to indicate that this position is incorrect.

2.2. 移除或更换 DGX Station 内部的包装材料

为防止在运输过程中损坏 DGX Station 内部的组件,DGX Station 内部包装了一块泡沫包装件。 在连接 DGX Station 并开机之前,您必须DGX Station 内部移除此包装件。 如果您要根据退货授权 (RMA) 将 DGX Station 退回 NVIDIA,请在重新包装 DGX Station 之前更换此包装件。
开始之前,请确保
  • DGX Station 已关机并断电。
  • 电源线、所有通信电缆以及任何外围设备(如显示器和键盘)均已从 DGX Station 断开连接。
  1. 按下 DGX Station 后面板右侧的按钮,以松开从后方看 DGX Station 时右侧的侧面板。

    Line drawing showing the button on the right side of the DGX Station back panel being pushed.

  2. 提起面板以将其移除。

    Line drawing showing the DGX Station side-panel being removed.

    小心
    为防止静电放电造成损坏,请避免触摸 DGX Station 内部的任何组件。
  3. 移除或更换围绕 DGX Station 内部 GPU 卡的泡沫包装件。
    • 要移除泡沫包装件,请轻轻抓住它并将其朝您拉动。

      如果您正在拆封为退回 NVIDIA (RMA) 的设备预先发运的更换件,请将此泡沫包装件与所有其他 DGX Station 包装一起保留。 您将需要这些包装来重新包装您的原始 DGX Station 以运送给 NVIDIA。

    • 要更换泡沫包装件,请轻轻地将其推入 DGX Station 内部 GPU 卡周围的位置。



    Line drawing showing the foam packing piece being removed from DGX Station.

  4. 将侧面板的底部边缘与 DGX Station 的底部边缘对齐。

    Line drawing showing the side-panel being aligned with the bottom edge of the DGX Station.

  5. 用力将面板推回原位以重新啮合闩锁。

    Line drawing showing the DGX Station side-panel latches being re-engaged.

2.3. 连接 DGX Station 并开机

要完成此任务,您需要以下未随 DGX Station 提供的物品

  • 显示器,带有电源线和连接器电缆,端接 DisplayPort™ 连接器或 HDMI 连接器

    如果您的显示器连接器电缆端接 HDMI 连接器,您可以使用随附的适配器之一将电缆连接到 DGX Station

  • USB 键盘
  • USB 鼠标
  • 以太网电缆
  1. 将显示器连接到任何 DisplayPort 连接器,并将键盘和鼠标连接到任何两个 USB 端口。

    Line drawing showing display and keyboard connections to the DGX Station.

    注意: 对于初始设置,仅将一个显示器连接到 DGX Station。 完成 Ubuntu OS 的初始配置后,您可以配置 DGX Station 以使用多个显示器。 有关详细信息,请参阅配置 DGX Station 以使用多个显示器
  2. 使用任一以太网端口将 DGX Station 连接到具有互联网连接的 LAN。

    Line drawing showing LAN connections to the DGX Station.

    注意

    仅将 DGX Station 上的一个以太网端口连接到互联网,除非您计划手动配置端口并在至少一个端口上禁用 DHCP。

    默认情况下,DGX Station 上的两个以太网端口都配置为 DHCP。 如果两个端口同时连接,则每个端口都将获得其自己的 IP 地址。 然后,Linux 操作系统 (OS) 使用的 IP 地址将在这些地址之间交替,从而导致操作系统和应用程序发生故障。

  3. 确保电源拨动开关处于 OFF(关闭)位置。

    当前型号



    Line drawing showing the operation of the DGX Station PSU rocker switch to the OFF position.

    早期型号



    Line drawing showing the operation of the DGX Station PSU rocker switch to the OFF position for earlier units.

  4. 将随附的电源线从设备背面的电源插座连接到额定接地交流电源插座。 有关 DGX Station 的功耗、输入电压和额定电流的详细信息,请参阅电源规格

    当前型号



    Line drawing showing the power cable connection to the DGX Station.

    早期型号



    Line drawing showing the power cable connection to the DGX Station for earlier units.

    小心

    使用随附的电源线,请勿将此电源线与其他产品一起使用或用于任何其他目的。 并非所有电源线都具有相同的额定电流。

    将家用延长线与您的产品一起使用。 家用延长线没有过载保护,不适用于计算机系统。

  5. 将显示器连接到合适的交流电源插座并打开显示器电源。
  6. DGX Station 电源拨动开关移动到 ON(开启)位置。

    当前型号



    Line drawing showing the operation of the DGX Station PSU rocker switch to the ON position.

    早期型号



    Line drawing showing the operation of the DGX Station PSU rocker switch to the ON position for earlier units.

  7. 按下设备正面的电源按钮以打开 DGX Station 的电源。

    Line drawing showing the operation of the DGX Station Power push button switch.

2.4. 完成 Ubuntu OS 的初始配置

首次打开 DGX Station 电源时,系统会提示您接受 NVIDIA 软件的最终用户许可协议。 然后,系统会引导您完成 Ubuntu OS 的初始配置过程。
注意: 在配置过程中,为防止未经授权的用户使用非默认启动条目和修改启动参数,您需要输入 GRUB 密码。
  1. 接受 EULA,然后单击继续
  2. 选择您的语言,例如,英语 - 英语,然后单击继续
  3. 选择您的键盘,例如,英语(美国),然后单击继续
  4. 选择您的位置,例如,洛杉矶,然后单击继续
  5. 输入您的用户名和密码,再次输入密码以确认,然后单击继续 以下是一些需要记住的要求:
    • 用户名必须由小写字母组成。
    • 用户名将代替 root 帐户用于管理活动。
    • 它也用作 GRUB 用户名。
    • 确保您输入强度高的密码。

      如果您输入的密码强度较低,则会显示警告。

  6. 输入 GRUB 密码,然后单击确定
    • 您的 GRUB 密码必须至少包含 8 个字符。

      如果少于 8 个字符,您将无法单击继续

    • 如果您未输入密码,则将禁用 GRUB 密码保护。
  7. 如果您执行了自动加密安装,系统还会提示您为您的根文件系统创建新的密码短语。
    • 默认密码以 nvidia3d 为种子,当您完成此步骤时,您输入的密码将被禁用。
    • 系统启动时,此新密码短语将用于解锁您的根文件系统。

Ubuntu OS 配置完成后,您可以登录到 DGX Station 以访问您的 Ubuntu 桌面。

注意:在您的 DGX Station 制造后,可能已提供 DGX Station 软件的更新。 为确保您拥有最新的 DGX Station 软件(包括安全更新),请检查更新并安装任何可用的更新,然后再使用您的 DGX Station。 有关更多信息,请参阅在同一 DGX OS Desktop 主要版本内升级

2.6. 注册您的 DGX Station

要获得对您的 DGX Station 的支持,请按照购买时作为购买一部分发送的权利认证电子邮件中的注册说明进行操作。

注册后,您可以访问 NVIDIA 企业支持门户、获得技术支持、获取软件更新以及设置 NGC for DGX 系统帐户。 如果您没有收到相关信息,请在 https://www.nvidia.com/en-us/support/enterprise/ 向 NVIDIA 企业支持团队提交案例。

2.7. 配置 DGX Station 以使用多个显示器

DGX Station 中的 NVIDIA Tesla V100 GPU 卡之一提供三个 DisplayPort 连接器,使您能够将最多三个显示器连接到 DGX Station。 如果您想将多个显示器与 DGX Station 一起使用,请在完成 Ubuntu OS 的初始配置之后,将其配置为使用多个显示器。

  1. 将您要使用的显示器连接到 DGX Station 后部的 DisplayPort 连接器。

    每个显示器在您连接时都会自动检测到。



    Screen capture showing the DGX OS Desktop when two displays are connected to the DGX Station.

  2. 可选:如有必要,调整显示器配置,例如切换主显示器或更改显示器位置或方向。
    1. 打开显示器窗口。
      • DGX OS Desktop 4 版本:打开桌面菜单栏右侧的 Ubuntu 系统菜单,单击工具图标,然后在打开的设置窗口中,选择设备 > 显示器
      • DGX OS Desktop 3 版本:从桌面菜单栏右侧的 Ubuntu 系统菜单中,选择系统设置,然后在打开的系统设置窗口中,单击显示器
    2. 在打开的显示器窗口中,对显示器设置进行所需的更改,然后单击应用

      Screen capture showing the Ubuntu Displays window.

高分辨率显示器会消耗大量 GPU 内存。 如果您已将三个 4K 显示器连接到 DGX Station,则它们可能会消耗连接它们的 NVIDIA Tesla V100 GPU 卡上的大部分 GPU 内存,尤其是在您运行图形密集型应用程序时。

如果您在 DGX Station 上运行内存密集型计算工作负载,并且遇到性能问题,请考虑通过减少或最小化图形工作负载来节省 GPU 内存。

  • 要减少图形工作负载,请断开您连接的任何其他显示器,并且仅将一个显示器与 DGX Station 一起使用。

    如果您从 DGX Station 断开显示器,则系统会自动检测到断开连接,并且显示器设置会自动针对剩余的显示器进行调整。

  • 要最大程度地减少图形工作负载,请关闭显示管理器并使用安全外壳 (SSH) 远程登录到 DGX Station

    • DGX OS Desktop 4 版本:要关闭 GNOME 显示管理器,请键入以下命令

      $ sudo telinit 3
    • DGX OS Desktop 3 版本:要关闭 LightDM 显示管理器,请键入以下命令

      $ sudo service lightdm stop

    要启动显示管理器,请远程登录到 DGX Station 并键入适用于您的 DGX OS Desktop 版本的命令

    • DGX OS Desktop 4 版本
      $ sudo telinit 5
    • DGX OS Desktop 3 版本
      $ sudo service lightdm start

2.9. 准备 DGX Station 以与 Docker 一起使用

需要对 DGX Station 进行一些初始设置,以确保用户拥有运行 Docker 容器所需的权限,并防止 Docker 和 DGX Station 之间的 IP 地址冲突。

注意: 有关设置文件系统配额的更多信息,请参阅 如何在 Ubuntu 18.04 上设置文件系统配额。 默认情况下,DGX OS 提供步骤 1 和 2,因此从步骤 3 开始。

2.9.1. 允许用户运行 Docker 容器

为防止 docker 守护程序在没有特权升级保护的情况下运行,Docker 软件需要 sudo 权限才能运行容器。 满足此要求需要允许将运行 Docker 容器的用户使用 sudo 权限运行命令。 因此,您应确保只有您信任且了解使用 sudo 权限运行命令可能对 DGX Station 造成的潜在风险的用户才能运行 Docker 容器。

在允许多个用户使用 sudo 权限运行命令之前,请咨询您的 IT 部门,以确定您是否会违反您组织的安全策略。 有关允许用户运行 Docker 容器的安全隐患,请参阅 Docker 守护程序攻击面

您可以通过以下方式之一允许用户运行 Docker 容器

  • 将每个用户添加为具有 sudo 权限的管理员用户。

  • 将每个用户添加为没有 sudo 权限的标准用户,然后将用户添加到 docker 组。 这种方法本质上是不安全的,因为任何可以向 docker 引擎发送命令的用户都可以升级特权并运行 root 用户操作。

    要将现有用户添加到 docker 组,请运行以下命令

    $ sudo usermod -aG docker user-login-id
    user-login-id
    您要添加到 docker 组的现有用户的用户登录 ID。

2.9.2. 防止 Docker 和 DGX Station 之间的 IP 地址冲突

为确保 DGX Station 可以访问 Docker 容器的网络接口,请将容器配置为使用与 DGX Station 使用的其他网络资源不同的子网。 默认情况下,Docker 使用 172.17.0.0/16 子网。 如果此范围内的地址已在 DGX Station 网络上使用,请更改 Docker 网络以指定 Docker 容器要使用的桥接 IP 地址范围和容器 IP 地址范围。

此任务需要 sudo 权限。
  1. 在纯文本编辑器(如 vi)中打开 /etc/systemd/system/docker.service.d/docker-override.conf 文件。
    $ sudo vi /etc/systemd/system/docker.service.d/docker-override.conf
  2. 将以下选项附加到以 ExecStart=/usr/bin/dockerd 开头的行,该行指定启动 dockerd 守护程序的命令
    • --bip=bridge-ip-address-range
    • --fixed-cidr=container-ip-address-range
    bridge-ip-address-range
    Docker 容器要使用的桥接 IP 地址范围,例如,192.168.127.1/24
    container-ip-address-range
    Docker 容器要使用的容器 IP 地址范围,例如,192.168.127.128/25

    此示例显示了一个完整的 /etc/systemd/system/docker.service.d/docker-override.conf 文件,该文件已编辑为指定 Docker 容器要使用的桥接 IP 地址范围和容器 IP 地址范围。

    [Service]
    ExecStart=
    ExecStart=/usr/bin/dockerd -H fd:// -s overlay2 --default-shm-size=1G --bip=192.168.127.1/24 --fixed-cidr=192.168.127.128/25
    LimitMEMLOCK=infinity
    LimitSTACK=67108864
    
    注意:DGX OS Desktop 3.1.4 版本开始,选项 --disable-legacy-registry=false 已从 Docker CE 服务配置文件 docker-override.conf 中移除。 移除该选项是为了与 Docker CE 17.12 及更高版本兼容。
  3. 保存并关闭 /etc/systemd/system/docker.service.d/docker-override.conf 文件。
  4. 重新加载 systemd 守护程序的 Docker 设置。
    $ sudo systemctl daemon-reload
  5. 重新启动 docker 服务。
    $ sudo systemctl restart docker

2.10. 管理 CPU 缓解措施

DGX OS Desktop 包括用于缓解 CPU 推测性侧信道漏洞的安全更新。 这些缓解措施可能会降低深度学习和机器学习工作负载的性能。

如果您的 DGX 系统安装中包含其他措施来缓解这些漏洞(例如集群级别的措施),您可以禁用单个 DGX 节点的 CPU 缓解措施,从而提高性能。 此功能自 DGX OS Desktop 4.4.0 版本起可用。

2.10.1. 确定 DGX 系统的 CPU 缓解状态

如果您不知道是否启用了或禁用了 CPU 缓解措施,请发出以下命令。

$ cat /sys/devices/system/cpu/vulnerabilities/* 
  • 如果输出由多个以 Mitigation: 为前缀的行组成,则表示启用了 CPU 缓解措施。

    示例

    KVM: Mitigation: Split huge pages
    Mitigation: PTE Inversion; VMX: conditional cache flushes, SMT vulnerable
    Mitigation: Clear CPU buffers; SMT vulnerable
    Mitigation: PTI
    Mitigation: Speculative Store Bypass disabled via prctl and seccomp
    Mitigation: usercopy/swapgs barriers and __user pointer sanitization
    Mitigation: Full generic retpoline, IBPB: conditional, IBRS_FW, STIBP: conditional, RSB filling
    Mitigation: Clear CPU buffers; SMT vulnerable
    
  • 如果输出由多个以 Vulnerable 为前缀的行组成,则表示禁用了 CPU 缓解措施。

    示例

    KVM: Vulnerable
    Mitigation: PTE Inversion; VMX: vulnerable
    Vulnerable; SMT vulnerable
    Vulnerable
    Vulnerable
    Vulnerable: __user pointer sanitization and usercopy barriers only; no swapgs barriers
    Vulnerable, IBPB: disabled, STIBP: disabled
    Vulnerable
    

2.10.2. 禁用 CPU 缓解措施

小心
执行以下说明将禁用 DGX OS Desktop 软件提供的 CPU 缓解措施。
  1. 安装 nv-mitigations-off 软件包。
    $ sudo apt install nv-mitigations-off -y
  2. 重新启动系统。
  3. 验证 CPU 缓解措施是否已禁用。
    $ cat /sys/devices/system/cpu/vulnerabilities/*
    输出应包含多个 Vulnerable 行。 有关示例输出,请参阅确定 DGX 系统的 CPU 缓解状态

2.10.3. 重新启用 CPU 缓解措施

  1. 移除 nv-mitigations-off 软件包。
    $ sudo apt purge nv-mitigations-off
  2. 重新启动系统。
  3. 验证 CPU 缓解措施是否已启用。
    $ cat /sys/devices/system/cpu/vulnerabilities/*
    输出应包含多个 Mitigations 行。 有关示例输出,请参阅确定 DGX 系统的 CPU 缓解状态

3. 在 DGX Station 上升级 DGX OS Desktop 软件

DGX OS Desktop 软件的更新通过标准 Ubuntu 存储库提供,并且可以从多个来源获得。 您有责任升级 DGX Station 上的软件,以安装来自这些来源的更新。

升级 DGX OS Desktop 软件可能涉及在同一主 DGX OS Desktop 版本内升级,或者升级到新的主 DGX OS Desktop 版本。

  • 在同一主版本内升级 是指在两个 DGX OS Desktop 版本之间进行升级,这两个版本的发布标识符的第一位数字相同,例如从 3.1.6 升级到 3.1.7。在同一主版本的 DGX OS Desktop 内升级会将所有软件包升级到该版本仓库中的最新版本。
  • 升级到新的主版本 是指在两个 DGX OS Desktop 版本之间进行升级,这两个版本的发布标识符的第一位数字不同,例如从 DGX OS Desktop 3.1.7 升级到 4.0.4。升级到新的主 DGX OS Desktop 版本会将所有软件包升级到新的 DGX OS Desktop 版本仓库中的最新版本。

有关可用更新的详细信息,请参阅可用的 DGX Station 软件包更新。这些更新可能包含重要的安全更新。为了保护您的 DGX Station,请使您的系统保持最新,并安装最新的重要安全更新。有关 Ubuntu 操作系统安全更新的信息,请参阅 Ubuntu 安全公告

3.1. 在同一 DGX OS Desktop 主版本内升级

执行此任务以在两个 DGX OS Desktop 版本之间进行升级,这两个版本的发布标识符的第一位数字相同,例如从 3.1.6 升级到 3.1.7。升级过程不会更新您的软件包源。未来的更新将从当前主版本的仓库中获取。

您可以使用 Ubuntu Desktop 操作系统提供的任何标准方法在同一 DGX OS Desktop 主版本内进行升级。例如,请参阅:和

小心
当您使用这些方法升级 DGX Station 上的软件时,您将升级 所有 可从您配置的软件源获取更新的软件,包括您自己安装的应用程序。如果您想阻止某个应用程序被升级,您可以指示 Ubuntu 软件包管理器保留当前版本。有关更多信息,请参阅 Ubuntu 社区帮助 Wiki 上的 软件包保持简介

3.3. 选择加入 DGX OS Desktop 补丁更新

补丁更新是指 DGX OS Desktop 软件中各个组件的软件包升级,这些更新通过 DGX OS Desktop 更新仓库交付。您必须选择加入才能接收补丁更新。 当您选择加入后,任何可用的补丁更新都将被安装。在您选择加入后,DGX OS Desktop 补丁更新的分发将添加到您配置的软件包来源中。

确保满足以下先决条件
  • 您以管理员用户身份登录到 DGX Station 上的 Ubuntu 桌面。
  • 您的 DGX Station 已升级到 DGX OS Desktop 版本
  1. 从所有配置的来源下载有关软件包最新版本的信息。
    $ sudo apt update
  2. 安装 dgxstation-release-updates-repo 软件包。
    $ sudo apt install -y dgxstation-release-updates-repo
    release
    您的 DGX OS Desktop 版本所基于的 Ubuntu 操作系统版本的代码名称。例如,如果您正在运行基于 Ubuntu 18.04 的 DGX OS Desktop 4 版本,则 releasebionic

    此示例安装 dgxstation-bionic-updates-repo

    $ sudo apt install -y dgxstation-bionic-updates-repo
  3. 安装 dgxstation-release-updates-repo 软件包后,再次从所有配置的来源下载有关软件包最新版本的信息。
    $ sudo apt update
  4. 通过模拟软件包升级来查看可用的更新。
    $ sudo apt -s full-upgrade
  5. 安装当前 DGX OS Desktop 版本的所有可用更新。
    $ sudo apt -y full-upgrade
    注意: 即使启用了 R450 仓库,CUDA 11.0 也 不会 自动安装。要手动安装 CUDA 11.0,请发出以下命令
    $ sudo apt install -y cuda-toolkit-11-0
  6. 升级完成后,重启您的 DGX Station

    任何对 Linux 的 NVIDIA 显卡驱动程序的升级都需要重启。

    如果您在没有重启 DGX Station 的情况下升级了 Linux 的 NVIDIA 显卡驱动程序,则运行 nvidia-smi 命令会显示错误消息。

    $ nvidia-smi
    Failed to initialize NVML: Driver/library version mismatch
    

3.4. 可用的 DGX Station 软件包更新

DGX Station 的更新通过标准的 Ubuntu 仓库提供。

DGX Station 预设为从这些仓库获取以下软件的更新

  • Docker
  • DGX Station 独有的软件包,包括 CUDA 工具包和 CUDA 驱动程序软件包
  • Ubuntu 软件

有关仓库的更多信息,请参阅 Ubuntu 社区帮助 Wiki 上的 仓库/Ubuntu

3.4.1. Docker 和 DGX Station 独有软件的更新

Docker 以及 DGX Station 独有的软件(包括 CUDA 工具包和 CUDA 驱动程序软件包)的更新可从 NVIDIA 维护的仓库获得。

小心
  • 不要 从公共 Ubuntu 的 CUDA 软件包仓库 获取 CUDA 工具包和 CUDA 驱动程序软件包的更新。来自公共仓库的更新可能与 NVIDIA® GPU Cloud (NGC) Registry for DGX 提供的 DGX 优化框架不兼容。
  • 不要 从 Docker 的仓库获取 Docker 的更新。NVIDIA Container Runtime for Docker 对 Docker CE 版本有严格的依赖性,来自 Docker 仓库的更新可能会导致 NVIDIA Container Runtime for Docker 被移除。

NVIDIA 维护的仓库在 DGX StationUbuntu 软件和更新其他软件 中默认启用,如下面的屏幕截图所示。

注意: 尽管 Docker 仓库也被启用,但 DGX Station 不再使用此仓库来获取 Docker 的更新,因为 NVIDIA 维护的仓库优先于 Docker 仓库。


Screen capture showing the Ubuntu Software & Updates window with the the Other Software tab selected

以下发行版可从此仓库获得

release-main
包含主版本和次要 DGX OS Desktop 版本。
release-update
包含补丁更新,用于分发安全更新、关键问题修复和其他更新。只有在您选择加入补丁更新(如选择加入 DGX OS Desktop 补丁更新中所述)后,此分发才会处于活动状态。

release 是您的 DGX OS Desktop 版本所基于的 Ubuntu 操作系统版本的代码名称。例如,如果您正在运行基于 Ubuntu 18.04 的 DGX OS Desktop 4 版本,则 releasebionic

3.4.2. DGX Station 上 Ubuntu 软件的更新

DGX Station 上 Ubuntu 软件的更新可从 Canonical 仓库获得。

DGX StationUbuntu 软件和更新Ubuntu 软件 中默认启用的仓库如下面的屏幕截图所示。



Screen capture showing the Ubuntu Software & Updates window with the the Ubuntu Software tab selected

注意

默认情况下,DGX Station 不会通知您可用的更新或自动安装任何更新,包括重要的安全更新。为了最大限度地降低您的 DGX Station 遭受安全漏洞攻击的风险,您必须 确保它保持最新,并安装最新的重要安全更新。

阻止更新到另一个 LTS 基础操作系统版本,因为它们可能会中断 DGX Station 软件并禁用 NVIDIA 显卡驱动程序。

3.7. 在气隙 DGX Station 系统上更新软件

出于安全目的,某些安装要求 DGX Station 成为气隙系统。气隙系统未连接到任何不安全的网络,例如公共互联网或不安全的 LAN,也未连接到任何连接到不安全网络的其他计算机。用于更新 DGX Station 上的软件以及从 NGC Container Registry 加载容器镜像的默认机制需要互联网连接。在与互联网隔离的气隙系统上,您必须提供替代机制来更新软件和加载容器镜像。

3.7.1. 从私有仓库提供 DGX Station 软件更新

DGX Station 提供软件更新的公共 NVIDIA 和 Canonical 仓库是 Ubuntu 仓库。访问这些仓库需要互联网连接。在与互联网隔离的气隙系统上,您必须从镜像公共仓库的私有仓库提供这些更新。

注意: 此任务 适用于在同一 DGX OS Desktop 主版本内的升级,例如从 4.5.0 升级到 4.6.0。它不适用于升级到新的 DGX OS Desktop 主版本,例如从 3.1.8 升级到 4.6.0。
  1. 识别与公共 NVIDIA 和 Canonical 仓库对应的来源,这些来源为 DGX Station 软件提供更新。 您可以从 /etc/apt/sources.list 文件和 /etc/apt.sources.list.d/ 目录的内容中识别这些来源,或者使用 系统设置软件和更新
  2. 创建并维护您在上一步中识别的仓库来源的私有镜像。
  3. 更新为 DGX Station 提供更新的来源,以使用您的私有仓库镜像而不是公共仓库。 有关详细说明,请参阅 ,其中提供了 DGX OS Desktop 4 版本的示例。

    要更新这些来源,请修改 /etc/apt/sources.list 文件和 /etc/apt.sources.list.d/ 目录的内容。

未来在同一 DGX OS Desktop 主版本内的升级将从您的私有仓库镜像中获取。

3.7.1.1. 在 DGX OS 4 系统中创建镜像

本节中的说明将在具有网络访问权限的系统上执行。

以下是先决条件:
  • 需要安装 Ubuntu 操作系统的系统来创建镜像,因为需要使用几个 Ubuntu 工具。
  • 您必须以管理员用户身份登录到安装了 Ubuntu 操作系统的系统,因为此过程需要 sudo 权限。
  • 系统必须包含足够的存储空间来将仓库复制到文件系统。空间要求可能高达 250 GB。
  • 需要一种有效的方法来移动大量数据,例如,DMZ 中的共享存储,或可以带入气隙区域的便携式 USB 驱动器。

    数据将需要移动到需要更新的系统。确保任何便携式驱动器都使用 ext4 或 FAT32 格式化。

  1. 确保存储设备已连接到具有网络访问权限的系统,并识别设备的挂载点。 这些说明中使用的示例挂载点:/media/usb/repository
  2. 安装 apt-mirror 软件包。
    $ sudo apt update
    $ sudo apt install apt-mirror
  3. 将目标目录的所有权更改为 apt-mirror 组中的 apt-mirror 用户。
    $ sudo chown apt-mirror:apt-mirror /media/usb/repository

    目标目录必须由用户 apt-mirror 拥有,否则复制将无法工作。

  4. /etc/apt/mirror.list 中配置目标目录的路径,并使用下面包含的仓库列表来检索 Ubuntu 基础操作系统和 NVIDIA DGX OS 软件包的软件包。
    ############# config ##################
    #
    set base_path /media/usb/repository #/your/path/here
    #
    # set mirror_path $base_path/mirror
    # set skel_path $base_path/skel
    # set var_path $base_path/var
    # set cleanscript $var_path/clean.sh
    # set defaultarch <running host architecture>
    # set postmirror_script $var_path/postmirror.sh
    set run_postmirror 0
    set nthreads 20
    set _tilde 0
    #
    ############# end config ##############
    # Standard Canonical package repositories:
    deb http://security.ubuntu.com/ubuntu bionic-security main
    deb http://security.ubuntu.com/ubuntu bionic-security universe
    deb http://security.ubuntu.com/ubuntu bionic-security multiverse
    deb http://archive.ubuntu.com/ubuntu/ bionic main multiverse universe
    deb http://archive.ubuntu.com/ubuntu/ bionic-updates main multiverse universe
    #
    deb-i386 http://security.ubuntu.com/ubuntu bionic-security main
    deb-i386 http://security.ubuntu.com/ubuntu bionic-security universe
    deb-i386 http://security.ubuntu.com/ubuntu bionic-security multiverse
    deb-i386 http://archive.ubuntu.com/ubuntu/ bionic main multiverse universe
    deb-i386 http://archive.ubuntu.com/ubuntu/ bionic-updates main multiverse universe
    #
    # DGX specific repositories:
    deb http://international.download.nvidia.com/dgxstation/repos/bionic bionic main restricted universe multiverse
    deb http://international.download.nvidia.com/dgxstation/repos/bionic bionic-updates main restricted universe multiverse
    deb http://international.download.nvidia.com/dgxstation/repos/bionic bionic-r418+cuda10.1 main multiverse restricted universe
    deb http://international.download.nvidia.com/dgxstation/repos/bionic bionic-r450+cuda11.0 main multiverse restricted universe
    #
    deb-i386 http://international.download.nvidia.com/dgxstation/repos/bionic bionic main restricted universe multiverse
    deb-i386 http://international.download.nvidia.com/dgxstation/repos/bionic bionic-updates main restricted universe multiverse
    # Only for DGX OS 4.1.0
    deb-i386 http://international.download.nvidia.com/dgxstation/repos/bionic bionic-r418+cuda10.1 main multiverse restricted universe
    # Clean unused items
    clean http://archive.ubuntu.com/ubuntu
    clean http://security.ubuntu.com/ubuntu
  5. 运行 apt-mirror 并等待其完成下载内容。

    这将花费很长时间,具体取决于网络连接速度。

    $ sudo apt-mirror
  6. 弹出包含所有软件包的可移动存储设备。
    $ sudo eject /media/usb/repository 

3.7.1.2. 配置目标气隙 DGX OS 4 系统

本节中的说明将在目标气隙 DGX 系统上执行。

以下是先决条件:
  • 目标气隙 DGX 系统已安装,已完成首次启动过程,并准备好使用最新的软件包进行更新。
  • 已将创建镜像的 USB 存储设备连接到目标 DGX 系统。

    还有其他方法可以传输数据,本文档未涵盖这些方法,因为它们将取决于气隙环境的数据中心策略。

  1. 将存储设备挂载到气隙系统上的 /media/usb/repository 以保持一致性。
  2. 配置 apt 命令,通过修改以下行,在 /etc/apt/sources.list 文件中使用文件系统作为仓库。
    deb file:///media/usb/repository/mirror/security.ubuntu.com/ubuntu bionic-security main
    deb file:///media/usb/repository/mirror/security.ubuntu.com/ubuntu bionic-security universe
    deb file:///media/usb/repository/mirror/security.ubuntu.com/ubuntu bionic-security multiverse
    deb file:///media/usb/repository/mirror/archive.ubuntu.com/ubuntu/ bionic main multiverse universe
    deb file:///media/usb/repository/mirror/archive.ubuntu.com/ubuntu/ bionic-updates main multiverse universe
  3. /etc/apt/sources.list.d/dgx.list 文件中配置 apt 以使用 NVIDIA DGX OS 软件包。
    deb file:///media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic main multiverse restricted universe
  4. 如果存在,请删除 /etc/apt/sources.list.d/docker.list 文件,因为它不再需要,删除它可以消除更新过程中的错误消息。
  5. (仅适用于 DGX OS Release 4.1 及更高版本)/etc/apt/sources.list.d/dgxstation-bionic-r418-cuda10-1-repo.list 文件中配置 apt 以使用 NVIDIA DGX OS 软件包。
    $ echo "deb file:///media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic/ bionic-r418+cuda10.1 main multiverse restricted universe" | sudo tee /etc/apt/sources.list.d/dgxstation-bionic-r418-cuda10-1-repo.list
  6. 可选: (仅适用于 DGX OS Release 4.5 及更高版本) 如果您想使用 R450 NVIDIA 显卡驱动程序和 CUDA 工具包 11.0,请在 /etc/apt/sources.list.d/dgxstation-bionic-r450-cuda11-0-repo.list 文件中配置 apt 以使用 NVIDIA DGX OS 软件包。
    $ echo "deb file:///media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic/ bionic-r450+cuda11.0 main multiverse restricted universe" | sudo tee /etc/apt/sources.list.d/dgxstation-bionic-r450-cuda11-0-repo.list
    注意: 如果您想继续使用早期版本,例如 R418 NVIDIA 显卡驱动程序和 CUDA 工具包 10.1,请省略此步骤。
  7. 编辑 /etc/apt/preferences.d/nvidia 文件以更新 Pin 参数,如下所示。
    Package: *
    #Pin: origin international.download.nvidia.com
    Pin: release o=NVIDIA
    Pin-Priority: 600 
  8. 更新 apt 仓库。
    注意: 在运行 DGX OS Desktop 的系统上,会出现一些错误,因为 apt-mirror 不处理 URI 中的 @ 符号。您可以忽略这些错误,因为它们不会阻止系统被升级。
    $ sudo apt update

    此命令的输出类似于以下示例。

    Get:1 file:/media/usb/repository/mirror/security.ubuntu.com/ubuntu bionic-security InRelease [88.7 kB]
    Get:1 file:/media/usb/repository/mirror/security.ubuntu.com/ubuntu bionic-security InRelease [88.7 kB]
    Get:2 file:/media/usb/repository/mirror/archive.ubuntu.com/ubuntu bionic InRelease [242 kB]
    Get:2 file:/media/usb/repository/mirror/archive.ubuntu.com/ubuntu bionic InRelease [242 kB]
    Get:3 file:/media/usb/repository/mirror/archive.ubuntu.com/ubuntu bionic-updates InRelease [88.7 kB]
    Get:4 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r418+cuda10.1 InRelease [13.0 kB]
    Get:5 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r450+cuda11.0 InRelease [7070 B]
    Get:5 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r450+cuda11.0 InRelease [7070 B]
    Get:6 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic InRelease [13.1 kB]
    Get:3 file:/media/usb/repository/mirror/archive.ubuntu.com/ubuntu bionic-updates InRelease [88.7 kB]
    Get:4 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r418+cuda10.1 InRelease [13.0 kB]
    Get:6 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic InRelease [13.1 kB]
    Hit:7 https://download.docker.com/linux/ubuntu bionic InRelease
    Get:8 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r418+cuda10.1/multiverse amd64 Packages [10.1 kB]
    Get:9 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r450+cuda11.0/multiverse amd64 Packages [17.4 kB]
    Get:10 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r418+cuda10.1/restricted amd64 Packages [10.3 kB]
    Get:11 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r450+cuda11.0/restricted amd64 Packages [26.4 kB]
    Get:12 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic-r418+cuda10.1/restricted i386 Packages [516 B]
    Get:13 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic/multiverse amd64 Packages [44.5 kB]
    Get:14 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic/multiverse i386 Packages [8,575 B]
    Get:15 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic/restricted i386 Packages [745 B]
    Get:16 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic/restricted amd64 Packages [8,379 B]
    Get:17 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic/universe amd64 Packages [2,946 B]
    Get:18 file:/media/usb/repository/mirror/international.download.nvidia.com/dgxstation/repos/bionic bionic/universe i386 Packages [496 B]
    Reading package lists... Done
    Building dependency tree
    Reading state information... Done
    249 packages can be upgraded. Run 'apt list --upgradable' to see them.
    $ 
  9. 使用新配置的本地仓库升级系统。
    $ sudo apt full-upgrade

    如果您配置了 apt 以在 /etc/apt/sources.list.d/dgxstation-bionic-r450-cuda11-0-repo.list 文件中使用 NVIDIA DGX OS 软件包,则 NVIDIA 显卡驱动程序将升级到 R450 驱动程序,并且软件包来源将更新为从 R450 驱动程序仓库获取未来的更新。

  10. 可选: (仅适用于 DGX OS Release 4.5 及更高版本) 如果您配置了 apt 以在 /etc/apt/sources.list.d/dgxstation-bionic-r450-cuda11-0-repo.list 文件中使用 NVIDIA DGX OS 软件包,并且想要使用 CUDA 工具包 11.0,请安装它。
    $ sudo apt install cuda-toolkit-11-0
    注意: 如果您没有配置 apt 以在 /etc/apt/sources.list.d/dgxstation-bionic-r450-cuda11-0-repo.list 文件中使用 NVIDIA DGX OS 软件包,请省略此步骤。如果您尝试安装 CUDA 工具包 11.0,则尝试将失败。

3.7.1.3. 在 DGX OS 5 系统中创建镜像

本节中的说明将在具有网络访问权限的系统上执行。

以下是先决条件。
  • 需要安装 Ubuntu 操作系统的系统来创建镜像,因为需要使用几个 Ubuntu 工具。
  • 您必须以管理员用户身份登录到安装了 Ubuntu 操作系统的系统,因为此过程需要 sudo 权限。
  • 系统必须包含足够的存储空间来将仓库复制到文件系统。空间要求可能高达 250 GB。
  • 需要一种有效的方法来移动大量数据,例如,DMZ 中的共享存储,或可以带入气隙区域的便携式 USB 驱动器。

    数据将需要移动到需要更新的系统。确保任何便携式驱动器都使用 ext4 或 FAT32 格式化。

  1. 确保存储设备已连接到具有网络访问权限的系统,并识别设备的挂载点。
    以下是这些说明中使用的示例挂载点
    /media/usb/repository
  2. 安装 apt-mirror 软件包。
    $ sudo apt update
    $ sudo apt install apt-mirror
  3. 将目标目录的所有权更改为 apt-mirror 组中的 apt-mirror 用户。
    $ sudo chown apt-mirror:apt-mirror /media/usb/repository

    目标目录必须由用户 apt-mirror 拥有,否则复制将无法工作。

  4. /etc/apt/mirror.list 中配置目标目录的路径,并使用下面包含的仓库列表来检索 Ubuntu 基础操作系统和 NVIDIA DGX OS 软件包的软件包。
    ############# config ##################
    #
    set base_path /media/usb/repository #/your/path/here
    #
    # set mirror_path $base_path/mirror
    # set skel_path $base_path/skel
    # set var_path $base_path/var
    # set cleanscript $var_path/clean.sh
    # set defaultarch <running host architecture>
    # set postmirror_script $var_path/postmirror.sh
    set run_postmirror 0
    set nthreads 20
    set _tilde 0
    #
    ############# end config ##############
    # Standard Canonical package repositories:
    deb http://security.ubuntu.com/ubuntu focal-security main multiverse universe restricted
    deb http://archive.ubuntu.com/ubuntu/ focal main multiverse universe restricted
    deb http://archive.ubuntu.com/ubuntu/ focal-updates main multiverse universe restricted
    #
    deb-i386 http://security.ubuntu.com/ubuntu focal-security main multiverse universe restricted
    deb-i386 http://archive.ubuntu.com/ubuntu/ focal main multiverse universe restricted
    deb-i386 http://archive.ubuntu.com/ubuntu/ focal-updates main multiverse universe restricted
    #
    # CUDA specific repositories:
    deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /
    #
    # DGX specific repositories:
    deb http://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal common dgx
    deb http://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal-updates common dgx
    #
    deb-i386 http://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal common dgx
    deb-i386 http://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal-updates common dgx
    # Clean unused items
    clean http://archive.ubuntu.com/ubuntu
    clean http://security.ubuntu.com/ubuntu
  5. 运行 apt-mirror 并等待其完成下载内容。

    这将花费很长时间,具体取决于网络连接速度。

    $ sudo apt-mirror
  6. 弹出包含所有软件包的可移动存储设备。
    $ sudo eject /media/usb/repository 

3.7.1.4. 配置目标气隙 DGX OS 5 系统

本节中的说明将在目标气隙 DGX 系统上执行。

以下是先决条件。
  • 目标气隙 DGX 系统已安装,已完成首次启动过程,并准备好使用最新的软件包进行更新。
  • 已将创建镜像的 USB 存储设备连接到目标 DGX 系统。

    还有其他方法可以传输数据,本文档未涵盖这些方法,因为它们将取决于气隙环境的数据中心策略。

  1. 将存储设备挂载到气隙系统上的 /media/usb/repository 以保持一致性。
  2. 配置 apt 命令,通过修改以下行,在 /etc/apt/sources.list 文件中使用文件系统作为仓库。
    deb file:///media/usb/repository/mirror/security.ubuntu.com/ubuntu focal-security main multiverse universe restricted
    deb file:///media/usb/repository/mirror/archive.ubuntu.com/ubuntu/ focal main multiverse universe restricted
    deb file:///media/usb/repository/mirror/archive.ubuntu.com/ubuntu/ focal-updates main multiverse universe restricted
  3. /etc/apt/sources.list.d/dgx.list 文件中配置 apt 以使用 NVIDIA DGX OS 软件包。
    deb file:///media/usb/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal main dgx
    deb file:///media/usb/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal-updates main dgx
    /etc/apt/sources.list.d/cuda-compute-repo.list 文件中配置 apt 以使用 NVIDIA CUDA 软件包。
    deb file:///media/usb/repository/mirror/developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /
  4. 更新 apt 仓库。
    注意: 在运行 DGX OS Desktop 的系统上,会出现一些错误,因为 apt-mirror 不处理 URI 中的 @ 符号。您可以忽略这些错误,因为它们不会阻止系统被升级。
    $ sudo apt update

    此命令的输出类似于以下示例。

    Get:1 file:/media/usb/repository/mirror/security.ubuntu.com/ubuntu focal-security InRelease [107 kB]
    Get:2 file:/media/usb/repository/mirror/archive.ubuntu.com/ubuntu focal InRelease [265 kB]
    Get:3 file:/media/usb/repository/mirror/archive.ubuntu.com/ubuntu focal-updates InRelease [111 kB]
    Get:4 file:/media/usb/repository/mirror/developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease
    Get:5 file:/media/usb/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/focal/x86_64 focal InRelease [12.5 kB]
    Get:6 file:/media/usb/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/focal/x86_64 focal-updates InRelease [12.4 kB]
    Get:7 file:/media/usb/repository/mirror/developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Release [697 B]
    Get:8 file:/media/usb/repository/mirror/developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Release.gpg [836 B]
    Reading package lists... Done
    
  5. 使用新配置的本地仓库升级系统。
    $ sudo apt full-upgrade

3.7.2. 将容器镜像加载到气隙 DGX Station 系统上

NGC Container Registry 加载容器镜像需要互联网连接。在与互联网隔离的气隙系统上,您必须使用可移动介质将容器镜像从具有互联网连接的系统复制到气隙系统。

  1. 在具有互联网连接的系统上,登录到 NGC Container Registry 并加载您想要的容器镜像。 有关说明,请参阅 NGC Container Registry for DGX 用户指南
  2. 将容器镜像另存为 tar 存档。
    $ docker save nvcr.io/registry-space/repository:tag > archive-file.tar
    registry-space
    容器镜像所在的注册表中的空间名称。对于 NVIDIA 提供的容器镜像,注册表空间为 nvidia
    repository
    包含容器镜像的仓库。仓库是具有相同名称的容器镜像的所有版本的集合。仓库名称是主容器镜像名称。
    tag
    标识容器镜像版本的标签。
    archive-file
    您为保存容器镜像的存档文件选择的名称。
  3. 通过使用可移动介质(例如 USB 闪存驱动器或 DVD-ROM)将镜像传输到气隙系统。
  4. 在气隙系统上,从包含镜像的存档文件的本地副本加载容器镜像。
    $ docker load –i framework.tar
  5. 确认镜像已加载到气隙系统上。
    $ docker images

4. 维护和保养 NVIDIA DGX Station

在尝试对 DGX Station 进行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。DGX Station 的这些条款和条件可以通过 NVIDIA DGX 系统支持页面找到。

小心
DGX Station 被设计为一个集成系统, 支持安装额外的 PCIe 设备,例如 GPU 卡。任何尝试通过安装额外的 PCIe 设备来修改 DGX Station 的行为都是未经授权的修改,并将使 DGX Station 硬件保修失效。任何此类修改也会损害系统的性能,可能会使系统的电路过载,并可能导致其过热。

4.1. 问题解决和客户服务

登录 NVIDIA 企业支持 站点,以获得故障排除、诊断方面的帮助,或报告您的 DGX Station 的问题。

有关其他联系信息,请参阅 NVIDIA DGX Station 的客户支持

4.2. 清洁 DGX Station 下方的网状过滤器

为了防止灰尘通过设备下方的通风孔进入 DGX Station,在 DGX Station 的底部安装了网状过滤器。定期清洁此网状过滤器,以防止过滤器上积聚灰尘,从而阻碍空气流过 DGX Station

  1. 伸到 DGX Station 前方下方,抓住网状过滤器的把手。
  2. 将网状过滤器朝您拉动,使其从设备前部滑出。

    Line drawing showing the mesh filter being pulled out from underneath the DGX Station.

  3. 使用压缩空气吹掉网状过滤器上的灰尘。
  4. 将网状过滤器与 DGX Station 下方的滑轨对齐,然后将其滑回设备下方的原位。

    Line drawing showing the mesh filter being slid back underneath the DGX Station.

4.3. 自 DGX OS Desktop 4.4.0 起:检查 DGX Station 的健康状况并收集故障排除信息

4.4.0 版本开始,使用 NVIDIA 系统管理 (NVSM) 来检查 DGX Station 的健康状况并收集故障排除信息。

有关如何使用 NVSM 执行这些任务的信息,请参阅 NVSM 文档中的相关说明。

任务 说明
检查 DGX Station 的健康状况 在 NVIDIA 系统管理用户指南中显示健康状况
收集 DGX Station 的故障排除信息 在 NVIDIA 系统管理用户指南中转储健康状况

有关如何为早期版本执行这些任务的信息,请参阅以下主题

4.4. DGX OS Desktop 4.3.0 及更早版本:收集 DGX Station 的故障排除信息

注意:4.4.0 版本开始,用于收集故障排除信息 (nvsysinfo) 的工具已替换为 NVIDIA 系统管理 (NVSM)。有关如何使用 NVSM 执行此任务的信息,请参阅 NVIDIA 系统管理用户指南中的转储健康状况

为了帮助诊断和解决问题,DGX Station 提供了一个工具来收集 NVIDIA 支持企业服务的故障排除信息。

该工具验证 DGX Station 的基本功能和性能,并在 xz 压缩的 tar 存档中收集以下信息

  • 日志文件
  • 硬件清单
  • 软件清单

要收集 DGX Station 的故障排除信息,请运行以下命令

sudo nvsysinfo [-o output-file]
注意: 对于 DGX OS Desktop 3.1.1 到 3.1.3 版本,要运行的命令如下所示
sudo nvidia-sysinfo [-o output-file]
output-file

写入信息的文件的路径。

如果您省略输出文件,则写入信息的文件名取决于您正在使用的 DGX OS Desktop 版本。

DGX OS Desktop 版本 文件名
4.0.4 到 4.3.0 版本 /tmp/nvsysinfo-host-name-timestamp.tar.xz
自 3.1.4 以来的任何 3.x 版本 /tmp/nvsysinfo-timestamp.random-number.out
3.1.1 到 3.1.3 版本 /tmp/nvidia-sys-info-timestamp.random-number.out

使用任何方便您的方法将文件发送给 NVIDIA 支持企业服务。例如,将文件作为电子邮件附件发送。

4.5. DGX OS Desktop 4.3.0 及更早版本:检查 DGX Station 的健康状况

注意:4.4.0 版本开始,NVIDIA 系统健康检查器 (nvhealth) 工具已替换为 NVIDIA 系统管理 (NVSM)。有关如何使用 NVSM 执行此任务的信息,请参阅 NVIDIA 系统管理用户指南中的显示健康状况

DGX Station 提供了 NVIDIA 系统健康检查器 (nvhealth) 工具来运行系统并验证其健康状况。nvhealth 的输出是检查项目及其状态的细目列表,通常为“健康”或“不健康”。在健康的系统上,所有检查都应返回“健康”。您应该调查任何返回“不健康”的检查,以确定其根本原因并解决它们。

要检查 DGX Station 的健康状况,请运行以下命令

$ sudo nvhealth [-k output-file]
output-file

系统原始状态写入的文件名和路径。nvhealth 命令在命令输出的末尾显示此文件名。

如果您省略输出文件,则信息将写入文件 /tmp/nvhealth-log.random-string.jsonl,例如,/tmp/nvhealth-log.6wf3WriAC3.jsonl

注意

如果在 RAID 级别更改为 RAID 5 后 RAID 阵列正在重建时运行 nvhealth 命令,则 nvhealth 会将 RAID 卷的状态报告为不健康。为了避免这种可能产生误导的结果,请等到 RAID 阵列重建完成后再运行 nvhealth

要检查重建进度并显示完成百分比以及完成时间估计,请运行此命令

# cat /proc/mdstat

Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md0 : active raid5 sdb[0] sdc[1] sdd[2]
     181764096 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [UUU_]
     [===>.................]  recovery = 17.2% (10426232/60588032) finish=45.8min speed=18238K/sec

4.6. 更换系统和组件

在尝试对 DGX Station 进行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。DGX Station 的这些条款和条件可以通过 NVIDIA DGX 系统支持页面找到。

联系 NVIDIA 企业支持以获取任何需要退回维修或更换的系统或组件的 RMA 编号。更换组件时, 使用 NVIDIA 提供给您的替换件,除非另有指示

以下组件是客户可更换的
  • 固态硬盘 (SSD)
    注意: 如果您想为 DGX Station 添加用于数据存储的 SSD,请从 NVIDIA 企业支持处获取 SSD。
  • DIMM
    注意: 如果 DIMM 发生故障或要将系统内存容量增加到 512 GB,则 DIMM 是客户可更换的。如果您想将系统内存容量增加到 512 GB,请从 NVIDIA 企业支持处获取替换 DIMM。
  • CMOS 电池
    注意: 自行获取更换的 CMOS 电池,而不是从 NVIDIA 企业支持处获取。

将故障的高价值组件退回 NVIDIA。您无需退回 功能正常的 32 GB DIMM 或低成本物品,例如 CMOS 电源电池

4.6.1. 更换系统

在 RMA 下退回 DGX Station 时,请考虑以下几点。

包装

为防止运输过程中损坏,请按照DGX Station 装运重新包装中的说明,将 DGX Station 重新包装在更换单元预先发货时使用的包装中。

固态硬盘 (SSD)

如有必要,您可以在发运系统以进行更换之前,卸下并保留固态硬盘 (SSD)。如果您已收到更换系统并希望保留原始固态硬盘 (SSD),请在将有缺陷的系统发回时,将新的固态硬盘 (SSD) 安装到该系统中。

交流电源线

退回 DGX Station 时,请勿退回交流电源线。

附件

退回 DGX Station 时,请包含所有随附附件,但不包括交流电源线。

4.6.2. DGX Station 装运重新包装

如果您要根据 RMA 将 DGX Station 退回 NVIDIA,请将其重新包装在更换单元预先发货时使用的包装中,以防止运输过程中损坏。

小心
DGX Station88 磅40 千克)。请勿尝试抬起 DGX Station。而应通过在地板上滚动其装配的脚轮将其移动到位。
在开始之前,请确保已更换 DGX Station 内部 GPU 卡周围的泡沫包装件。有关详细说明,请参阅卸下或更换 DGX Station 内部的包装
  1. DGX Station 运输纸箱的底托盘放在地板上,并确保将托盘前部的挡板向下拉,形成一个斜坡。
  2. DGX Station 沿斜坡向上滚动到其运输纸箱的底托盘中。
    小心
    确保有第二个人帮助您将 DGX Station 滚动到位。


    Line drawing showing the DGX Station being rolled into the bottom tray of its shipping carton.

  3. 将前部包装件插入托盘中,确保包装件的唇缘位于 DGX Station 下方。

    Line drawing showing the front packing piece being inserted into the bottom tray of the DGX Station shipping carton.

  4. 将侧面包装件插入托盘中,确保每个包装件的唇缘都位于 DGX Station 下方。

    Line drawing showing side packing pieces being inserted into the bottom tray of the DGX Station shipping carton.

  5. 将所有随附附件(不包括交流电源线)装入附件箱中。保留交流电源线以用于更换后的 DGX Station
  6. 两个附件箱都放在托盘上 DGX Station 两侧的插槽中。

    确保从每个附件箱边缘伸出的凸耳背对 DGX Station



    Line drawing showing accessory boxes pieces being placed in the slots in the bottom tray of the DGX Station shipping carton.

    附件箱用于帮助在运输过程中将 DGX Station 固定在其包装中。请务必将两个附件箱都放在托盘的插槽中,即使其中一个或两个箱子是空的。

  7. 向上拉起 DGX Station 运输纸箱底托盘前部的挡板。

    Line drawing the flap at the front of the bottom tray of the DGX Station shipping carton being pulled up.

  8. 将运输纸箱的顶盖放低到位,使顶盖上的孔与底托盘上的孔对齐。

    Line drawing showing the top cover of the DGX Station shipping carton being lowered into position.

  9. 将包装卡扣插入运输纸箱顶盖的切口中,并啮合卡扣以固定顶盖到位。

    为防止包装卡扣卡在运输纸箱内,插入切口时请勿用力过猛。



    Line drawing showing the DGX Station packing clasps being replaced.

4.6.3. 更换 DIMM

如果 DIMM 故障,或者您想用 64 GB DIMM 更换所有八个出厂安装的 32 GB DIMM 以获得 512 GB 的总容量,则可以更换双列直插式内存模块 (DIMM)。

在尝试更换故障 DIMM 之前,请联系 NVIDIA 企业客户支持部门,以帮助确定需要更换的故障 DIMM 的位置 ID。

位置 ID 是以下字母数字指示符之一

  • DIMM_A1
  • DIMM_A2
  • DIMM_B1
  • DIMM_B2
  • DIMM_D2
  • DIMM_D1
  • DIMM_C2
  • DIMM_C1
小心
DGX Station 内部的组件是静电敏感设备。通过佩戴连接到 DGX Station 机箱接地的腕带并将组件放置在防静电工作面上,保护这些设备免受静电放电 (ESD) 的影响。

DIMM 位于 DGX Station 内部的主板上。

  1. 关闭 DGX Station 并断开网络电缆和电源线。
  2. 从后方看时,卸下 DGX Station 右侧的侧面板。
    1. 按下 DGX Station 后面板右侧的按钮以释放面板。

      Line drawing showing the button on the right side of the DGX Station back panel being pushed.

    2. 提起面板以将其移除。

      Line drawing showing the DGX Station side-panel being removed.

      小心
      为防止静电放电损坏,请避免触摸 DGX Station 内部的任何组件,除非您要更换或维修的组件。
  3. 如果要更换故障 DIMM,请使用下图作为指导来找到故障 DIMM 的位置。

    Diagram showing the DIMM socket locations on the DGX Station motherboard.

  4. 卸下 DIMM

    如果要将 32 GB DIMM 更换为 64 GB DIMM 以增加系统内存容量,请在安装更换的 64 GB DIMM 之前,卸下所有八个 32 GB DIMM。



    Diagram showing removal of a DIMM from its socket.

    1. 向上按 DIMM 插槽上端的闩锁,以打开闩锁并将 DIMM 从插槽中取出。
    2. 将 DIMM 朝您方向拉动,以将其从插槽中卸下。
  5. 小心插入更换的 DIMM。如果要将 32 GB DIMM 更换为 64 GB DIMM 以增加系统内存容量,请对每个更换的 64 GB DIMM 执行此步骤。

    Diagram showing insertion of a DIMM into its socket.

    1. 确保插槽闩锁已打开。
    2. 将更换的 DIMM 放在插槽上方,确保 DIMM 上的槽口与插槽中的键对齐,然后将 DIMM 按入插槽,直到闩锁卡入到位。当 DIMM 正确就位后,闩锁应如图所示关闭。

      Diagram showing a DIMM after it is correctly seated with its socket latch closed.

  6. 更换 DGX Station 的侧面板。
    1. 将侧面板的底部边缘与 DGX Station 的底部边缘对齐。

      Line drawing showing the side-panel being aligned with the bottom edge of the DGX Station.

    2. 用力将面板推回原位以重新啮合闩锁。

      Line drawing showing the DGX Station side-panel latch being re-engaged.

  7. 重新连接网络电缆和电源线,然后打开 DGX Station 电源。DGX Station 在开机自检 (POST) 时停止,然后关闭。
  8. DGX Station 关闭后,再次打开电源。第二次开机时,DGX Station 将正常启动。

4.6.4. 更换 DGX Station 中的 CMOS 电源电池

DGX Station 中的 CMOS 电源电池为实时时钟 (RTC) 提供电源,以便在 DGX Station 与交流电源断开连接时,维护 BIOS 设置,例如系统时间和日期。如果 DGX Station 在与交流电源断开连接后重新启动,并且 CMOS 电源电池已放电,您将收到警告,提示 RTC 已重置,并且必须在 BIOS 中更新设置。为避免这些警告,请更换 DGX Station 中的 CMOS 电源电池。

警告:如果日期重置,或者每次启动 DGX 系统时都提示您按 F1 选择启动选项,则您必须更换电池。
小心
DGX Station 内部的组件是静电敏感设备。通过佩戴连接到 DGX Station 机箱接地的腕带并将组件放置在防静电工作面上,保护这些设备免受静电放电 (ESD) 的影响。

要完成此任务,您需要以下工具和材料

  • 1 把小型一字螺丝刀
  • 1 个新的 CR2032 电源电池
  1. 关闭 DGX Station 并断开网络电缆和电源线。
  2. 从后方看时,卸下 DGX Station 右侧的侧面板。
    1. 按下 DGX Station 后面板右侧的按钮以释放面板。

      Line drawing showing the button on the right side of the DGX Station back panel being pushed.

    2. 提起面板以将其移除。

      Line drawing showing the DGX Station side-panel being removed.

      小心
      为防止静电放电损坏,请避免触摸 DGX Station 内部的任何组件,除非您要更换或维修的组件。
  3. 卸下旧的 CMOS 电源电池。

    CMOS 电源电池位于 DGX Station 内部主板的左上角。



    Diagram showing the location of the CMOS power cell on the DGX Station motherboard.

    1. 小心地将小型一字螺丝刀的刀片插入主板和 CMOS 电源电池之间。
    2. 使用小型一字螺丝刀将 CMOS 电源电池从主板上撬开。
    警告:请勿将旧的 CMOS 电源电池丢弃在城市垃圾中。
  4. 小心地将更换的 CR2032 CMOS 电源电池与主板上的插槽对齐,使 + 符号朝向您,然后将其按入到位。
  5. 更换 DGX Station 的侧面板。
    1. 将侧面板的底部边缘与 DGX Station 的底部边缘对齐。

      Line drawing showing the side-panel being aligned with the bottom edge of the DGX Station.

    2. 用力将面板推回原位以重新啮合闩锁。

      Line drawing showing the DGX Station side-panel latch being re-engaged.

  6. 重新连接网络电缆和电源线,然后打开 DGX Station 电源。DGX Station 在开机自检 (POST) 时停止,然后关闭。
  7. DGX Station 关闭后,再次打开电源。第二次开机时,DGX Station 将正常启动。
  8. 如有必要,将系统日期和系统时间设置为当前时间和日期。
    1. 在系统重启时出现的第一个 NVIDIA 屏幕上,按 F2 访问 UEFI BIOS 实用程序 - 简易模式屏幕。
    2. 单击 UEFI BIOS 实用程序 - 简易模式屏幕左上角显示的日期和时间。

      Screen capture showing the location of the date and time in the UEFI BIOS Utility - EZ Mode screen.

    3. 在弹出的 系统日期和时间设置屏幕中,填写当前日期和时间,然后单击 保存

      Screen capture showing the System Date & Time setting pop-up screen.

    4. F10,并在出现提示时,选择 确定 以保存更改并退出。

4.7. 维护 DGX Station 持久存储

DGX Station 持久存储由用于数据存储和操作系统的固态硬盘 (SSD) 组成。出厂时,这些固态硬盘 (SSD) 的配置如系统内存和存储中所述。

4.7.1. 更改 RAID 阵列的 RAID 级别

出厂时,DGX Station RAID 阵列的 RAID 级别为 RAID 0。RAID 0 提供最大的存储容量,但不提供任何冗余。如果阵列中的单个固态硬盘 (SSD) 发生故障,则阵列上存储的所有数据都将丢失。如果您愿意接受容量减少以换取一定程度的保护,防止单个固态硬盘 (SSD) 发生故障,则可以将 RAID 阵列的级别更改为 RAID 5。如果您将 RAID 级别从 RAID 0 更改为 RAID 5,则 RAID 阵列的总存储容量将从 5.76 TB 减少到 3.84 TB。

在更改 DGX Station RAID 阵列的 RAID 级别之前,请备份您要保留的阵列上的所有数据。更改 DGX Station RAID 阵列的 RAID 级别会擦除阵列上存储的所有数据。

DGX Station 软件包括自定义脚本 configure_raid_array.py,您可以使用该脚本更改 RAID 阵列的级别,而无需卸载 RAID 卷。

  • 要将 RAID 级别更改为 RAID 5,请运行以下命令

    $ sudo configure_raid_array.py -m raid5
    注意

    将 RAID 级别更改为 RAID 5 后,将重建 RAID 阵列。正在重建的 RAID 阵列处于联机状态并可供使用,但对 DGX Station 健康状况的检查会将 RAID 卷的状态报告为不健康。因此,在重建 RAID 阵列时,请避免检查 DGX Station 的健康状况。有关更多信息,请参阅DGX OS Desktop 4.3.0 及更早版本:检查 DGX Station 的健康状况

    重建 RAID 阵列所需的时间取决于系统上的工作负载。在空闲系统上,重建可能在 30 分钟内完成。

  • 要将 RAID 级别更改为 RAID 0,请运行以下命令

    $ sudo configure_raid_array.py -m raid0

要确认 RAID 级别已按要求更改,请运行 lsblk 命令。RAID 阵列中每个固态硬盘 (SSD) 的 TYPE 列中的条目指示阵列的 RAID 级别。

以下示例显示阵列的 RAID 级别为 RAID 0。RAID 卷的名称为 md0,卷的挂载点为 /raid

~$ lsblk
NAME   MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
sda      8:0    0  1.8T  0 disk
|_sda1   8:1    0  487M  0 part  /boot/efi
|_sda2   8:2    0  1.8T  0 part  /
sdb      8:16   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdc      8:32   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdd      8:48   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid

4.7.2. 检查 DGX Station RAID 阵列的状态

使用 mdadm 命令打印 md0 设备的详细信息。

$ sudo mdadm -D /dev/md0

此示例显示了 RAID 阵列正常运行的状态。

$ sudo mdadm -D /dev/md0
        Version : 1.2
  Creation Time : Mon Jun  5 17:40:48 2017
     Raid Level : raid0
     Array Size : 374964224 (357.59 GiB 383.96 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Mon Jun  5 17:40:48 2017
          State : clean
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

     Chunk Size : 512K
           Name : lab-VirtualBox:0  (local to host lab-VirtualBox)
           UUID : c8ba911a:8634bd99:2ebeea3d:c9a7db4c
         Events : 0

    Number   Major   Minor      RaidDevice State
       0       8       16        0      active sync   /dev/sdb
       1       8       32        1      active sync   /dev/sdc
       2       8       48        2      active sync   /dev/sdd

此示例显示了 RAID 阵列的状态,其中一个固态硬盘 (SSD) 发生故障或丢失。发生故障或丢失的固态硬盘 (SSD) 由空的 RaidDevice State 列标识。

$ sudo mdadm -D /dev/md0
 ...

    Number   Major   Minor      RaidDevice State
       0       8       16        0      active sync   /dev/sdb
       1       8       32        1      active sync
       2       8       48        2      active sync   /dev/sdd

4.7.3. 检查 DGX Station 固态硬盘 (SSD) 的状态

DGX Station 固态硬盘 (SSD) 上的 LED 指示固态硬盘 (SSD) 的状态。固态硬盘 (SSD) 安装在 DGX Station 内部,仅当卸下覆盖固态硬盘 (SSD) 的侧面板时才可见。

  1. 从后方看时,卸下 DGX Station 左侧的侧面板。
    1. 按下 DGX Station 后面板左侧的按钮以释放面板。
    2. 提起面板以将其移除。
      小心
      为防止静电放电损坏,请避免触摸 DGX Station 内部的任何组件,除非您要更换或维修的组件。
  2. 检查每个固态硬盘 (SSD),以从固态硬盘 (SSD) 上 LED 的状态确定其状态。

    Line drawing showing the LEDs and identifiers of the DGX Station SSDs.

    亮起(常亮)
    固态硬盘 (SSD) 正在运行,但处于空闲状态。
    亮起(闪烁)
    正在读取或写入固态硬盘 (SSD)。
    熄灭
    固态硬盘 (SSD) 发生故障,必须更换。
  3. 更换 DGX Station 的侧面板。
    1. 将侧面板的底部边缘与 DGX Station 的底部边缘对齐。
    2. 用力将面板推回原位以重新啮合闩锁。
如果固态硬盘 (SSD) 发生故障,您必须按照添加或更换固态硬盘 (SSD)中的说明更换它。

4.7.4. 添加或更换固态硬盘 (SSD)

如果要增加 DGX Station RAID 阵列的容量,可以向 DGX Station 中的空驱动器托架添加四个固态硬盘 (SSD)。如果 DGX Station 中的固态硬盘 (SSD) 发生故障,请更换固态硬盘 (SSD) 以使系统恢复运行。

小心
DGX Station 中阵列的默认 RAID 级别为 RAID 0,这不提供任何冗余。如果阵列中的单个固态硬盘 (SSD) 发生故障,则阵列上存储的所有数据都将丢失。为防止固态硬盘 (SSD) 故障导致数据丢失,请确保备份您要保留的阵列上的任何数据。

如果要向 DGX Station 添加固态硬盘 (SSD),请确保满足以下先决条件

  • 您的 DGX Station 正在运行以下软件版本之一

    • DGX OS Desktop 4.4.0 或更高版本
    • 适用于 Red Hat Enterprise Linux 或 CentOS EL7-20.02 或更高版本的 DGX 软件
  • 您从 NVIDIA 企业支持部门获得它们。

    从 NVIDIA 企业支持部门获得的固态硬盘 (SSD) 经过认证可与 DGX Station 一起使用,并随附将它们固定到驱动器托架所需的螺钉。

  1. 从后方看时,卸下 DGX Station 左侧的侧面板。
    1. 按下 DGX Station 后面板左侧的按钮以释放面板。
    2. 提起面板以将其移除。
      小心
      为防止静电放电损坏,请避免触摸 DGX Station 内部的任何组件,除非您要更换或维修的组件。
  2. 在您要安装新固态硬盘 (SSD) 或包含您要更换的固态硬盘 (SSD) 的驱动器托架上,按下驱动器托架弹出按钮以松开驱动器托架闩锁。

    Line drawing showing the drive-tray eject button being pressed downwards

  3. 向上拉驱动器托架闩锁以松开驱动器托架。

    Line drawing showing the drive-tray latch being pulled upwards

  4. 向上滑动驱动器托架以将其从设备中完全卸下。

    Line drawing showing the drive-tray being slid upwards

  5. 如果要更换固态硬盘 (SSD),请从驱动器托架中卸下发生故障的固态硬盘 (SSD)。
    1. 使用十字螺丝刀,卸下将固态硬盘 (SSD) 连接到驱动器托架的四个螺钉。

      Line drawing showing the screws being removed from the drive-tray

      保存螺钉以用于更换的固态硬盘 (SSD)。

    2. 将固态硬盘 (SSD) 滑出驱动器托架。
  6. 新的或更换的固态硬盘 (SSD) 滑入驱动器托架。

    确保连接器位于托架的开口边缘侧。



    Line drawing showing the SSD being slid into the drive-tray

  7. 使用新的固态硬盘 (SSD) 随附或固定发生故障的固态硬盘 (SSD) 的四个螺钉,将新的或更换的固态硬盘 (SSD) 固定到驱动器托架。
  8. 将驱动器托架弹出按钮置于右侧,将驱动器托架插入相应的驱动器托架插槽中,然后将驱动器托架一直滑入驱动器托架插槽。

    Line drawing showing the drive-tray being slid into the drive bay

  9. 向下按驱动器托架闩锁,直到听到咔嗒声,以完全固定驱动器托架。

    Line drawing showing the drive-tray latch being pressed downwards

  10. 更换 DGX Station 的侧面板。
    1. 将侧面板的底部边缘与 DGX Station 的底部边缘对齐。
    2. 用力将面板推回原位以重新啮合闩锁。

DGX Station 恢复使用所需执行的操作取决于您是否更换了 RAID 阵列中的固态硬盘 (SSD)(操作系统固态硬盘 (SSD))。

4.7.5. 重建或重新创建 DGX Station RAID 阵列

RAID 5 阵列中单个驱动器发生故障是可恢复的错误,但该故障会导致阵列的数据冗余丢失。在 RAID 5 阵列中更换单个故障固态硬盘 (SSD) 后,您必须重建阵列以恢复阵列的数据冗余。RAID 0 阵列中任意数量的固态硬盘 (SSD) 发生故障以及 RAID 5 阵列中超过一个固态硬盘 (SSD) 发生故障都是不可恢复的故障。在更换固态硬盘 (SSD) 以响应不可恢复的故障后,您必须重新创建阵列。

如果 DGX Station RAID 阵列因一个或多个固态硬盘 (SSD) 发生故障而降级,请按照添加或更换固态硬盘 (SSD)中的说明更换每个故障固态硬盘 (SSD)。

DGX Station 软件包括用于重建或重新创建 RAID 阵列的自定义脚本 configure_raid_array.py

  • 要在更换单个故障固态硬盘 (SSD) 后重建 RAID 5 阵列,请运行以下命令

    $ sudo configure_raid_array.py -r
    注意:重建 RAID 5 阵列所需的时间取决于系统负载、固态硬盘 (SSD) 容量以及阵列中固态硬盘 (SSD) 的数量等因素。DGX Station 中由三个 1.92 TB 固态硬盘 (SSD) 组成的阵列的重建可能需要几个小时。

    您可以通过检查 /proc/mdstat 文件的内容来监控长时间运行的重建的进度

    $ cat /proc/mdstat
    Personalities : [raid0] [linear] [multipath] [raid1] [raid6] [raid5] [raid4] [raid10]
    md0 : active raid5 sdb[0] sdd[3] sdc[1]
          3750486016 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
          [>....................]  recovery =  4.0% (75580956/1875243008) finish=438.3min speed=68419K/sec
          bitmap: 2/14 pages [8KB], 65536KB chunk
    
    unused devices: <none>

    在此示例中,重建已完成 4.0%,预计重建将在 438.3 分钟内完成。

  • 要在更换多个故障固态硬盘 (SSD) 后重新创建 RAID 5 阵列,请运行以下命令

    $ sudo configure_raid_array.py -c -5 -f
    小心
    仅当发生不可恢复的故障(例如超过一个固态硬盘 (SSD) 发生故障)时,才指定 -c 选项。-c 选项会擦除阵列中的所有数据。
  • 要在更换任意数量的故障固态硬盘 (SSD) 后重新创建 RAID 0 阵列,请运行以下命令

    $ sudo configure_raid_array.py -c -f
RAID 阵列将以您指定的 RAID 级别重建或重新创建。
  • 如果您重新创建了 RAID 0 或 RAID 5 阵列,则阵列中的所有数据将在阵列重新创建后被擦除。
  • 如果您重建了 RAID 5 阵列,则阵列中的数据将在阵列重建后保留。
如果您已重新创建 RAID 0 或 RAID 5 阵列,并且备份了阵列上您要保留的数据,请从备份中恢复数据。

4.7.6. 扩展 DGX Station RAID 阵列

DGX Station 添加固态硬盘 (SSD) 后,您必须扩展 RAID 阵列以将新的固态硬盘 (SSD) 添加到阵列中。扩展 RAID 阵列的步骤对于所有受支持的 RAID 级别都相同。

按照添加或更换固态硬盘 (SSD)中的说明,将额外的固态硬盘 (SSD) 添加到 DGX Station

由于扩展 RAID 阵列存在数据丢失的风险,请确保您备份了阵列上要保留的数据。

此任务需要 sudo 权限。

使用标准 Linux 操作系统命令扩展 DGX Station RAID 阵列。

  1. 通过搜索 lsblk 命令的输出中未挂载的 1.8 T 驱动器,获取添加的固态硬盘 (SSD) 的设备 ID。
    $ lsblk

    在以下示例中,添加的固态硬盘 (SSD) 的设备 ID 为 sdesdfsdgsdh

    $ lsblk
    NAME   MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
    sda      8:0    0   1.8T  0 disk
    |_sda1   8:1    0   487M  0 part  /boot/efi
    |_sda2   8:2    0   1.8T  0 part  /
    sdb      8:16   0   1.8T  0 disk
    |_md0    9:0    0   5.2T  0 raid0 /raid
    sdc      8:32   0   1.8T  0 disk
    |_md0    9:0    0   5.2T  0 raid0 /raid
    sdd      8:48   0   1.8T  0 disk
    |_md0    9:0    0   5.2T  0 raid0 /raid
    sde      8:64   0   1.8T 0 disk
    sdf      8:80   0   1.8T 0 disk
    sdg      8:96   0   1.8T 0 disk
    sdh      8:112  0   1.8T 0 disk
  2. 将您添加到 DGX Station 的固态硬盘 (SSD) 添加到 RAID 阵列。
    $ sudo mdadm --add raid-device-path ssd-device-paths
    raid-device-path
    RAID 阵列的设备路径,例如,/dev/md0
    ssd-device-paths
    您添加的固态硬盘 (SSD) 的设备路径的空格分隔列表,其中每个路径的格式为 /dev/device-id

    此示例将设备路径为 /dev/sde/dev/sdf/dev/sdg/dev/sdh 的固态硬盘 (SSD) 添加到设备路径为 /dev/md0 的 RAID 阵列。

    sudo mdadm --add /dev/md0 /dev/sde /dev/sdf /dev/sdg /dev/sdh
  3. 将 RAID 阵列中的设备数量增加到 7。
    $ sudo mdadm --grow --raid-devices=7 raid-device-path
    raid-device-path
    RAID 阵列的设备路径,例如,/dev/md0
    注意:将 RAID 阵列中的设备数量增加到 7 可能需要几个小时甚至更长时间。如果在增加阵列上的设备数量时系统崩溃、关闭或重新启动,则阵列上的所有数据都将被擦除。

    此示例将设备路径为 /dev/md0 的 RAID 阵列中的设备数量增加到 7。

    $ sudo mdadm --grow --raid-devices=7 /dev/md0
  4. 调整 RAID 阵列上的文件系统的大小,以使用阵列中额外的物理空间。
    $ sudo resize2fs raid-device-path
    raid-device-path
    RAID 阵列的设备路径,例如,/dev/md0

    此示例调整设备路径为 /dev/md0 的 RAID 阵列上的文件系统的大小。

    $ sudo resize2fs /dev/md0
RAID 阵列将以其现有的 RAID 级别扩展。阵列上的数据将被保留,即使阵列是 RAID 0 阵列。

4.7.7. 将 SSD 配置为数据存储的 NFS 缓存

出厂时,DGX Station 中用于数据存储的固态硬盘 (SSD) 配置为本地持久存储。如果您的应用程序数据存储在远程 NFS 挂载的文件系统中,则可以通过将数据固态硬盘 (SSD) 配置为 NFS 缓存并将 NFS 挂载的文件系统配置为使用此缓存来提高应用程序性能。

如果任何您要保留的数据存储在用于数据存储的固态硬盘 (SSD) 上,请将此数据移动到另一个文件系统。
  1. 可选:如果 DGX Station 中用于数据存储的固态硬盘 (SSD) 配置在 RAID 5 阵列中,请将阵列的 RAID 级别更改为 RAID 0。
    $ sudo configure_raid_array.py -m raid0

    由于缓存数据是易失性的,因此您可以使用 RAID 阵列的全部容量而无需冗余,并且不会有丢失任何持久数据的风险。

  2. 从所有配置的来源下载有关软件包最新版本的信息。
    $ sudo apt update
  3. 安装 cachefilesd 和关联的 DGX 配置软件包,其中包含缓存守护程序及其关联的文件,例如启动文件和配置文件。
    $ sudo apt install cachefilesd dgx-conf-cachefilesd
  4. 启用缓存守护程序运行。
    1. 在纯文本编辑器(例如 vinanogedit)中,使用 sudo 用户权限打开文件 /etc/default/cachefilesd

      例如

      $ sudo vi /etc/default/cachefilesd
    2. 取消注释 RUN=yes 行。
    3. 保存更改并退出编辑器。
  5. 通过编辑缓存守护程序配置文件来配置缓存守护程序。
    1. 在纯文本编辑器(例如 vinanogedit)中,使用 sudo 用户权限打开文件 /etc/cachefilesd.conf

      例如

      $ sudo vi /etc/cachefilesd.conf
    2. 将缓存目录设置为 /raid,并将 FS-Cache 标记设置为 dgxcache
      dir /raid
      tag dgxcache
    3. 将剔除限制设置为针对深度学习工作负载优化的值,并为从大型数据集进行训练提供最快的吞吐量。
      brun  25%
      bcull 15%
      bstop  5%
      frun  10%
      fcull  7%
      fstop  3%
    4. 保存更改并退出编辑器。
    有关您可以在此文件中设置的所有选项的信息,请参阅 /etc/cachefilesd.conf 手册页。

    此示例显示了一个完整的 /etc/cachefilesd.conf 文件,用于配置 DGX Station 的缓存守护程序。LSM 安全上下文是 cachefilesd 守护程序的默认安全上下文。

    ###############################################################################
    #
    # Copyright (C) 2006,2010 Red Hat, Inc. All Rights Reserved.
    # Written by David Howells (dhowells@redhat.com)
    #
    # This program is free software; you can redistribute it and/or
    # modify it under the terms of the GNU General Public License
    # as published by the Free Software Foundation; either version
    # 2 of the License, or (at your option) any later version.
    #
    ###############################################################################
    
    dir /raid
    tag dgxcache
    brun  25%
    bcull 15%
    bstop  5%
    frun  10%
    fcull  7%
    fstop  3%
    
    # Assuming you're using SELinux with the default security policy included in
    # this package
    secctx system_u:system_r:cachefiles_kernel_t:s0
  6. 启动缓存守护程序。
    $ sudo systemctl start cachefilesd
  7. 确认缓存守护程序已正确启动。
    $ sudo systemctl status cachefilesd
    ● cachefilesd.service - LSB: CacheFiles daemon
       Loaded: loaded (/etc/init.d/cachefilesd; generated)
       Active: active (running) since Thu 2020-01-30 18:05:39 PST; 13s ago
         Docs: man:systemd-sysv-generator(8)
      Process: 3973 ExecStop=/etc/init.d/cachefilesd stop (code=exited, status=0/SUCCESS)
      Process: 4014 ExecStart=/etc/init.d/cachefilesd start (code=exited, status=0/SUCCESS)
        Tasks: 1 (limit: 4915)
       CGroup: /system.slice/cachefilesd.service
               └─4041 /sbin/cachefilesd
    
    Jan 30 18:05:39 mydgxstation systemd[1]: Starting LSB: CacheFiles daemon.
    Jan 30 18:05:39 mydgxstation cachefilesd[4014]:  * Starting FilesCache daemon  cachefilesd
    Jan 30 18:05:39 mydgxstation cachefilesd[4039]: About to bind cache
    Jan 30 18:05:39 mydgxstation cachefilesd[4039]: Bound cache
    Jan 30 18:05:39 mydgxstation cachefilesd[4041]: Daemon Started
    Jan 30 18:05:39 mydgxstation cachefilesd[4014]:    ...done.
    Jan 30 18:05:39 mydgxstation systemd[1]: Started LSB: CacheFiles daemon.
  8. Ctrl+C 返回到 shell 提示符。

将用于数据存储的固态硬盘 (SSD) 配置为 NFS 缓存后,确保为所有要使用缓存的 NFS 挂载的文件系统设置挂载选项 fsc

此示例显示了 /etc/fstab 中的一个条目,用于挂载已设置 fsc 选项的文件系统。

myfileserver.example.com:/mnt/shares/dldata /var/local/dldata nfs rw,noatime,rsize=32768,wsize=32768,nolock,tcp,intr,fsc,nofail 0 0

4.7.8. 清除 DGX Station 持久存储

清除 DGX Station 持久存储会永久销毁存储在那里的所有数据。数据销毁后,将无法恢复。清除 DGX Station 持久存储涉及清除所有用于数据存储的固态硬盘 (SSD)用于操作系统的固态硬盘 (SSD)。

删除 DGX Station 持久存储中的所有文件或重新格式化所有 DGX Station 固态硬盘 (SSD)不能清除 DGX Station 持久存储,因为存储在那里的数据仍然可以通过数据恢复工具恢复。

在清除 DGX Station 持久存储之前,请准备以下可启动安装介质

4.7.8.1. 在 DGX Station 上运行 Ubuntu Desktop LiveCD 会话

为了能够清除操作系统固态硬盘 (SSD),您必须从可启动安装介质(例如 USB 闪存驱动器或 DVD-ROM)在 DGX Station 上运行 Ubuntu Desktop LiveCD 会话。您必须使用 Ubuntu Desktop OS 而不是 DGX OS Desktop,因为您必须在不安装操作系统的情况下运行操作系统,而 DGX OS Desktop 缺少此选项。

要完成此任务,您需要可启动安装介质,例如 USB 闪存驱动器或 DVD-ROM,其中包含 Ubuntu Desktop OS LiveCD 映像。有关说明,请参阅 Ubuntu Community Help Wiki 上的准备 LiveCD

  1. 关闭 DGX Station
  2. 将 USB 闪存驱动器或 DVD-ROM 加载到 DGX Station 中。
    • 如果您使用 USB 闪存驱动器,请将其插入 DGX Station 的 USB 端口之一。
    • 如果您使用 DVD-ROM,请将外部光驱连接到 DGX Station 并将 DVD-ROM 加载到驱动器中。
  3. 打开 DGX Station 电源。
  4. 在出现的第一个 NVIDIA 屏幕上,按 F8 选择启动设备。
  5. 在用于选择启动设备的菜单中,使用箭头键选择 UEFI: usb-key-or-dvd-rom-name, 分区 n (size),然后按 Enter
  6. GNU GRUB 菜单出现时,选择 Try Ubuntu Without Installing(试用 Ubuntu,无需安装),然后按 Enter您已登录到 Ubuntu 桌面。
    注意:标准的 Ubuntu OS 图形驱动程序与 DGX Station 中的 NVIDIA Tesla V100 GPU 卡不兼容。因此,Ubuntu 桌面的大小可能不正确,并且应用程序可能不接受来自键盘和鼠标的输入。要克服此兼容性问题,请切换到纯文本 TTY 会话。
  7. Ctrl+Alt+F2 切换到纯文本 TTY 会话。
  8. Ubuntu 登录 提示符处,以用户 ubuntu 身份登录。 无需密码。

4.7.8.2. 清理所有 DGX Station SSD

通过清理 所有 用于数据存储的 SSD 以及 用于操作系统的 SSD,来清理 DGX Station 持久性存储。NVIDIA 随 DGX Station 提供的所有 SSD 都支持 ATA SANITIZE 命令。因此,您可以使用 Ubuntu 操作系统命令 hdparm 来清理 DGX Station SSD。

确保您正在 DGX Station 上运行 Ubuntu Desktop LiveCD 会话,如 在 DGX Station 上运行 Ubuntu Desktop LiveCD 会话 中所述。

此任务需要 sudo 权限。

在 Ubuntu Desktop LiveCD 会话中的纯文本 TTY 会话中执行此任务。
  1. 通过在 lsblk 命令的输出中搜索单词 disk,获取 SSD 的设备 ID。
    $ lsblk | grep disk

    您可以根据 SSD 的大小识别它们,SSD 的大小远大于可能连接到 DGX Station 的任何可移动介质(例如,您正在从中运行 Ubuntu Desktop LiveCD 会话的 USB 闪存驱动器)的大小。

    在以下示例中,SSD 的设备 ID 为 sdasdbsdcsdd。设备 ID sde 是 USB 闪存驱动器的设备 ID。

    $ lsblk | grep disk
    sda      8:0    0   1.8T  0 disk
    sdb      8:16   0   1.8T  0 disk
    sdc      8:32   0   1.8T  0 disk
    sdd      8:48   0   1.8T  0 disk
    sde      8:64   1   1.9G  0 disk /cdrom
  2. 确认所有 SSD 都支持 ATA SANITIZE 命令。

    对于每个 SSD,运行带有 -I 选项的 hdparm 命令。

    $ sudo hdparm -I /dev/device-id | grep SANIT
    device-id
    SSD 的设备 ID,例如,sdc

    此示例确认 SSD sdc 支持 ATA SANITIZE 命令。来自 hdparm 命令的输出中的星号 (*) 表示支持。

    $ sudo hdparm -I /dev/sdc | grep SANIT
       * SANITIZE_ANTIFREEZE_LOCK_EXT command
       * SANITIZE feature set
  3. 向所有 SSD 发出 ATA SANITIZE 命令。

    对于每个 SSD,运行带有 --yes-i-know-what-i-am-doing--sanitize-block-erase 选项的 hdparm 命令。

    # sudo hdparm \
    --yes-i-know-what-i-am-doing \
    --sanitize-block-erase /dev/device-id
    device-id
    SSD 的设备 ID,例如,sdc

    此示例向 SSD sdc 发出 ATA SANITIZE 命令。

    $ sudo hdparm \
    --yes-i-know-what-i-am-doing \
    --sanitize-block-erase /dev/sdc
    
    /dev/sdc:
    Issuing SANITIZE_BLOCK_ERASE command
    Operation started in background
    You may use `--sanitize-status` to check progress
    清理单个 SSD 需要几分钟时间。
  4. 检查清理状态。

    对于每个 SSD,重复运行带有 --sanitize-status 选项的 hdparm 命令,直到 SSD 的清理完成且没有错误。

    $ sudo hdparm --sanitize-status /dev/device-id
    device-id
    SSD 的设备 ID,例如,sdc

    此示例显示 SSD sdc 的清理仍在进行中。

    $ sudo hdparm --sanitize-status /dev/sdc
    
    /dev/sdc:
    Issuing SANITIZE_STATUS command
    Sanitize status:
        State:    SD2 Sanitize operation In Process
        Progress: 0x72aa (44%)
    

    此示例确认 SSD sdc 的清理已完成且没有错误。

    $ sudo hdparm --sanitize-status /dev/sdc
    
    /dev/sdc:
    Issuing SANITIZE_STATUS command
    Sanitize status:
        State:    SD0 Sanitize Idle
        Last Sanitize Operation Completed Without Error
  5. 关闭 DGX Station
    $ sudo shutdown -P now
  6. 当 Ubuntu Desktop 操作系统提示时,移除安装介质并按 Enter 键。

清理所有 DGX Station SSD 后,通过安装 DGX Station 软件并重新初始化 RAID 阵列,使 DGX Station 恢复服务。

有关说明,请参阅 从 USB 闪存驱动器或 DVD-ROM 安装 DGX Station 软件镜像。当系统提示您选择安装 DGX Station 软件的选项时,选择 安装 DGX OS Desktop release 并重新初始化 RAID0 卷

安装 DGX Station 软件并重新初始化 RAID 阵列后,如果需要,您可以将 RAID 阵列的 RAID 级别更改为 RAID 5。有关说明,请参阅 更改 RAID 阵列的 RAID 级别

4.8. 恢复 DGX Station 软件镜像

如果 DGX Station 软件镜像损坏或操作系统 SSD 在发生故障后被更换,请从镜像的原始副本中将 DGX Station 软件镜像恢复到其原始出厂状态。

提供了一个 USB 闪存驱动器,您可以从中恢复 DGX Station 软件镜像。在使用此 USB 驱动器恢复 DGX Station 软件镜像之前,请联系 NVIDIA 企业支持,查看是否有更高版本的软件镜像可用。如果有更高版本的镜像可用,请准备包含当前软件镜像的可启动安装介质,如下主题所述

当您拥有包含当前软件镜像的可启动安装介质时,请按照 从 USB 闪存驱动器或 DVD-ROM 安装软件镜像 中的说明安装镜像。

注意:在创建最新的可用 ISO 镜像文件后,可能已发布对 DGX Station 软件的更新。为了确保您拥有最新的 DGX Station 软件,包括安全更新,请在恢复软件镜像后检查更新并安装任何可用的更新。有关更多信息,请参阅 在同一 DGX OS Desktop 主要版本中升级

4.8.1. 获取 DGX Station 软件 ISO 镜像和校验和文件

为了确保您恢复最新可用版本的 DGX Station 软件镜像,请从 NVIDIA 企业支持获取当前的 ISO 镜像文件。为镜像提供了一个校验和文件,使您能够验证您从镜像文件创建的可启动安装介质。
  1. 登录到 NVIDIA 企业支持 站点。
  2. 单击 公告 选项卡以找到 DGX Station 软件镜像的下载链接。
  3. 下载 ISO 镜像及其校验和文件,并将它们保存到您的本地磁盘。 ISO 镜像也可以在存档文件中找到。如果您下载存档文件,请务必在继续之前提取 ISO 镜像。

4.8.2. 创建可引导的安装介质

从 NVIDIA 企业支持获得包含 DGX OS Desktop 软件镜像的 ISO 文件后,创建一个可启动安装介质,例如 USB 闪存驱动器或 DVD-ROM,其中包含该镜像。

  • 如果您要创建可启动 USB 闪存驱动器,请按照您正在使用的平台的说明进行操作
  • 如果您要创建可启动 DVD-ROM,您可以使用 在 DVD 上刻录 ISO 中描述的任何方法,该方法位于 Ubuntu 社区帮助 Wiki 上。
    注意: 包含某些 DGX OS Desktop 版本的软件镜像的 ISO 文件大于单层 DVD-ROM 的 4.7 GB 容量。您无法从可启动 DVD-ROM 安装这些版本,因为不支持从双层 DVD-ROM 安装 DGX OS Desktop。在创建可启动 DVD-ROM 之前,请检查包含 DGX OS Desktop 软件镜像的 ISO 文件的大小。

4.8.2.1. 使用 启动盘创建器 创建可启动 USB 闪存驱动器

在 Ubuntu Desktop 系统上,您可以使用 启动盘创建器 创建包含 DGX Station 软件镜像的可启动 USB 闪存驱动器。

确保满足以下先决条件

  1. 将 USB 闪存驱动器插入 Ubuntu Desktop 系统的 USB 端口之一。
  2. 搜索 启动盘创建器
    • Ubuntu 18.04 Desktop:打开 活动 概览,然后在搜索框中,键入 启动盘创建器
    • Ubuntu 16.04 Desktop:打开 Dash,然后在搜索框中,键入 启动盘创建器
  3. 单击 启动盘创建器 图标。
  4. 在打开的 制作启动盘 窗口中,从 源光盘镜像 (.iso) 列表中,选择 DGX Station 软件镜像文件。

    Screen capture of the Startup Disk Creator window showing a DGX Station software image and a USB flash drive selected.

    如果未列出 DGX Station 软件镜像文件,请单击 其他,然后在打开的窗口中,导航到该文件,选择该文件,然后单击 打开

  5. 要使用的磁盘 列表中,选择 USB 闪存驱动器,然后单击 制作启动盘

4.8.2.2. 使用 Akeo Rufus 创建可引导的 USB 闪存驱动器

在 Windows 系统上,您可以使用 Akeo Reliable USB Formatting Utility (Rufus) 创建包含 DGX OS 软件镜像的可启动 USB 闪存驱动器。

确保满足以下先决条件

  1. 将 USB 闪存驱动器插入 Windows 系统的 USB 端口之一。
  2. 下载并启动 Akeo Reliable USB Formatting Utility (Rufus)



  3. 驱动器属性 中,选择以下选项:.
    1. 启动选择 中,单击 选择,找到并选择 DGX OS 软件镜像。
    2. 分区方案 中,选择 GPT
    3. 目标系统 中,选择 UEFI (非 CSM)
  4. 格式化选项 中,选择以下选项:
    1. 文件系统 中,选择 NTFS
    2. 簇大小 中,选择 4096 字节(默认)
  5. 单击 开始 由于镜像是一个混合 ISO 文件,系统会提示您选择是以 ISO 镜像(文件复制)模式还是 DD 镜像(磁盘镜像)模式写入镜像。



  6. 选择 以 ISO 镜像模式写入,然后单击 确定

4.8.3. 验证可引导的安装介质

在 Linux 系统上,您可以使用为 DGX Station 软件镜像提供的校验和文件来验证您从镜像创建的安装介质。

确保满足以下先决条件

如何验证可启动安装介质取决于它是 USB 闪存驱动器还是 DVD-ROM。

4.8.3.1. 验证可引导的 USB 闪存驱动器

  1. 将 USB 闪存驱动器插入 Linux 系统的 USB 端口之一。
  2. 通过运行 lsblk 命令获取 USB 闪存驱动器的设备 ID。
    $ lsblk

    您可以根据 USB 闪存驱动器的大小(远小于 DGX Station 中 SSD 的大小)以及驱动器上任何分区的挂载点(位于 /media 下)来识别它。

    在以下示例中,USB 闪存驱动器的设备 ID 为 sde1

    $ lsblk
    NAME   MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
    sda      8:0    0  1.8T  0 disk
    |_sda1   8:1    0  487M  0 part  /boot/efi
    |_sda2   8:2    0  1.8T  0 part  /
    sdb      8:16   0  1.8T  0 disk
    |_md0    9:0    0  5.2T  0 raid0 /raid
    sdc      8:32   0  1.8T  0 disk
    |_md0    9:0    0  5.2T  0 raid0 /raid
    sdd      8:48   0  1.8T  0 disk
    |_md0    9:0    0  5.2T  0 raid0 /raid
    sde      8:64   1  3.7G  0 disk
    |_sde1   8:65   1  3.2G  0 part  /media/deepl/DGXSTATION
    |_sde2   8:66   1  2.3M  0 part
    $
  3. 计算 USB 闪存驱动器上镜像的校验和。
    $ sudo dd if=device-id bs=block-size | cksum
    device-id
    USB 闪存驱动器的设备 ID,例如,/dev/sde1
    block-size
    dd 命令要使用的块大小,例如,1M

    此示例计算设备 ID 为 /dev/sde1 的 USB 闪存驱动器上镜像的校验和,块大小为 1 MB。

    $ sudo dd if=/dev/sde1 bs=1M | cksum
    3299+1 records in
    3299+1 records out
    3459317760 bytes (3.5 GB, 3.2 GiB) copied, 164.369 s, 21.0 MB/s
    3992706625 3459317760
  4. 从校验和文件中获取校验和值。
    $ cat checksum-file
    checksum-file
    校验和文件的路径,包括文件名。

    此示例从当前工作目录中的校验和文件 DGXStation-3.1.2_56d4a9.crc 中获取镜像 DGXStation-3.1.2_56d4a9.iso 的校验和值。

    $ cat DGXStation-3.1.2_56d4a9.crc
    3992706625 3459317760 DGXStation-3.1.2_56d4a9.iso
    如果从校验和文件获得的值与从镜像计算出的值匹配,则安装介质的完整性已成功验证。

4.8.3.2. 验证可引导的 DVD-ROM

  1. 将 DVD-ROM 加载到连接到 Linux 系统的光驱中。
  2. 计算 DVD-ROM 上镜像的校验和。
    $ cksum < /dev/sr0
    此示例计算 DVD-ROM 上镜像的校验和。
    $ cksum < /dev/sr0
    3992706625 3459317760
  3. 从校验和文件中获取校验和值。
    $ cat checksum-file
    checksum-file
    校验和文件的路径,包括文件名。

    此示例从当前工作目录中的校验和文件 DGXStation-3.1.2_56d4a9.crc 中获取镜像 DGXStation-3.1.2_56d4a9.iso 的校验和值。

    $ cat DGXStation-3.1.2_56d4a9.crc
    3992706625 3459317760 DGXStation-3.1.2_56d4a9.iso
    如果从校验和文件获得的值与从镜像计算出的值匹配,则安装介质的完整性已成功验证。

4.8.4. 从 USB 闪存驱动器或 DVD-ROM 安装 DGX Station 软件镜像

在安装 DGX Station 软件镜像之前,请确保您拥有包含当前 DGX Station 软件镜像的可启动 USB 闪存驱动器或 DVD-ROM。

小心
安装 DGX Station 软件镜像会擦除操作系统 SSD 上存储的所有数据。/home 分区(存储所有用户的文档、软件设置、书签和其他个人文件的位置)位于操作系统 SSD 上,将被擦除。但是,如果您选择安装 DGX Station 软件并保留 RAID 阵列内容,则 RAID 阵列中存储的持久性数据不受影响。
  1. 关闭 DGX Station
  2. 将 USB 闪存驱动器或 DVD-ROM 加载到 DGX Station 中。
    • 如果您使用 USB 闪存驱动器,请将其插入 DGX Station 的 USB 端口之一。
    • 如果您使用 DVD-ROM,请将外部光驱连接到 DGX Station 并将 DVD-ROM 加载到驱动器中。
  3. 打开 DGX Station 电源。
  4. 在出现的第一个 NVIDIA 屏幕上,按 F8 选择启动设备。
  5. 在用于选择启动设备的菜单中,使用箭头键选择 UEFI: usb-key-or-dvd-rom-name, 分区 n (size),然后按 Enter
  6. 启动 DGX Station 安装介质。
  7. 要完成 使用根文件系统加密的标准安装,请选择以下选项之一:
    • 安装 DGX OS 5.0.0:安装 DGX OS 5.0.0 并重新格式化数据 RAID。
    • 安装 DGX OS 5.0.0:不重新格式化数据 RAID:安装 DGX OS 5.0.0,但不重新格式化数据 RAID。
  8. 要设置文件系统加密,请选择 高级安装选项,然后选择以下选项之一:
    • 安装 DGX Base OS 5.0.0:安装 DGX Base OS 5.0.0 并重新格式化数据 RAID。
    • 安装 DGX Base OS 5.0.0:不重新格式化数据 RAID:安装 DGX Base OS 5.0.0,但不重新格式化数据 RAID。
    注意: 对于这两个选项,默认根文件系统密码均为 nvidia3d
    以下是一些其他信息:
    • GRUB 菜单选项可能会在安装期间或在客户站点重新镜像 DGX Station 时出现。
    • 如果启动在出厂时未加密,您需要重新镜像 DGX Station,然后加密启动。
  9. 安装完成后,响应提示以接受 NVIDIA 软件的最终用户许可协议,并配置 Ubuntu 操作系统,包括创建您的用户名和密码以登录到 DGX Station
  10. Ubuntu 操作系统配置完成后,登录到 DGX Station 以访问您的 Ubuntu 桌面。
  11. 弹出 USB 闪存驱动器或 DVD-ROM。
  12. DGX Station 拔下 USB 闪存驱动器或光驱。

4.9. 更新 DGX Station 系统 BIOS

如果您需要更新 DGX Station 系统 BIOS,您可以从 NVIDIA 支持企业服务获取当前版本。

小心

仅当需要解决 DGX Station 的问题,或者 NVIDIA 支持企业服务指示您解决特定问题时,才更新系统 BIOS。如果您的 DGX Station 运行正常,并且 NVIDIA 支持企业服务未指示您更新,请不要更新系统 BIOS。尝试更新系统 BIOS 期间发生的错误可能会导致您的 DGX Station 无法启动。

如果您必须更新系统 BIOS,请务必从 NVIDIA 支持企业服务获取 BIOS 文件。不要从主板制造商或任何其他来源获取 BIOS 文件。

要完成此任务,您需要一个格式化为单个 FAT 16 或 FAT 32 分区的 USB 闪存驱动器。
  1. 获取系统 BIOS 文件。
    1. 登录到 NVIDIA 企业支持
    2. 单击 公告 选项卡以找到包含 DGX Station 系统 BIOS 文件的存档文件的下载链接。
    3. 下载存档文件并提取系统 BIOS 文件。
  2. 将系统 BIOS 文件复制到 USB 闪存驱动器。
  3. 关闭 DGX Station
  4. 将 USB 闪存驱动器插入 DGX Station 的 USB 端口之一。
  5. 打开 DGX Station 电源。
  6. 在出现的第一个 NVIDIA 屏幕上,按 DeleteF2 进入 UEFI BIOS 设置。
  7. UEFI BIOS 实用程序 - 简易模式 屏幕中,单击 高级模式
  8. 工具 菜单中,选择 EZ 3 闪速实用程序,然后按 Enter 键。
  9. EZ 3 闪速更新 屏幕中,选择 通过存储设备 作为 BIOS 更新方法,然后按 Enter 键。
  10. 驱动器 列表中,使用向上箭头键和向下箭头键选择包含 BIOS 文件的 USB 闪存驱动器,然后按 Enter 键。
  11. 文件夹 列表中,使用向上箭头键和向下箭头键选择 BIOS 文件。
  12. Enter 键开始 BIOS 更新过程。
    小心
    为了避免使您的 DGX Station 无法启动的风险,在 BIOS 更新过程中不要关闭或重置 DGX Station
  13. 当 BIOS 更新过程完成时,重新启动 DGX Station

4.10. 维护 GPU 液冷系统

液体冷却系统使 DGX Station 中的 GPU 保持在其所需的运行温度范围内。为了确保冷却系统可靠运行,您必须定期维护它。

4.10.1. 监控 GPU 温度

  1. 搜索 NVIDIA X Server 设置
    • DGX OS Desktop 4 版本:打开 活动 概览,然后在搜索框中,键入 NVIDIA X Server 设置
    • DGX OS Desktop 3 版本:打开 Dash,然后在搜索框中,键入 NVIDIA X Server 设置
  2. 单击 NVIDIA X Server 设置 图标。
  3. NVIDIA X Server 设置 窗口中的 GPU 列表中,单击每个 GPU 下的 散热设置

    将显示 GPU 的热传感器信息,包括其当前温度以及温度是否在 GPU 的工作范围内的指示。



    Screen capture of the NVIDIA X Server Settings window showing GPU thermal settings.

如果 GPU 运行温度过高,请检查 GPU 冷却系统中的液体液位,如 检查 GPU 冷却系统中的液体液位 中所述。

4.10.2. 检查 GPU 冷却系统中的液体液位

在正常运行中,系统可能会损失一些冷却液。每 12 个月,检查冷却系统中的液体液位,以确保其保持在要求的液位。
  1. 从后方看时,卸下 DGX Station 右侧的侧面板。
    1. 按下 DGX Station 后面板右侧的按钮以释放面板。

      Line drawing showing the button on the right side of the DGX Station back panel being pushed.

    2. 提起面板以将其移除。

      Line drawing showing the DGX Station side-panel being removed.

      小心
      为防止静电放电损坏,请避免触摸 DGX Station 内部的任何组件,除非您要更换或维修的组件。
  2. 查看冷却系统泵侧面的仪表,以确定冷却系统中的液体液位。

    Line drawing of the gauge for the liquid in the GPU cooling system showing the Minimum Level indicator.

    • 如果冷却系统中的液体液位在储液罐的最低液位或以上,请转到下一步。
    • 如果液体已降至储液罐中的最低液位以下,请按照 补充 GPU 冷却系统中的液体 中的说明进行补充。
  3. 更换 DGX Station 的侧面板。
    1. 将侧面板的底部边缘与 DGX Station 的底部边缘对齐。

      Line drawing showing the side-panel being aligned with the bottom edge of the DGX Station.

    2. 用力将面板推回原位以重新啮合闩锁。

      Line drawing showing the DGX Station side-panel latch being re-engaged.

4.10.3. 补充 GPU 冷却系统中的液体

如果液体低于要求的液位,或者在排空冷却液以更换冷却液后重新填充冷却系统,请补充 GPU 冷却系统中的液体。

联系 NVIDIA 企业支持以获取 DGX Station 冷却液套件,其中包含

  • 6 毫米内六角扳手

  • 1 瓶 EK-CryoFuel Clear Premix 冷却液

    小心
    使用套件随附的冷却液。 不要使用任何其他类型的冷却液。使用其他类型的冷却液将使 DGX Station 硬件保修失效,并可能导致系统损坏或性能下降。
  • 带有输送管的柔性塑料灌注瓶

  1. 确保 DGX Station 已关机。
  2. 用混合物填充塑料灌注瓶。
  3. 使用 Torx T20 内六角扳手松开冷却系统泵顶部的注液口盖,当盖子松动时,将其移除。

    Line drawing showing the filler cap of the GPU cooling system being removed.

  4. 将灌注瓶的输送管插入泵顶部的打开的注液口盖中。
  5. 轻轻挤压灌注瓶,将冷却液分配到泵中,直到液体达到储液罐中的最高液位。

    Line drawing showing the coolant liquid being added to the GPU cooling system from a filler bottle.

  6. 更换泵顶部的注液口盖,并使用 Torx T20 内六角扳手拧紧盖子,直到用手指拧紧为止。不要过度拧紧注液口盖。
  7. 打开 DGX Station 电源,并使其运行一分钟。 如果泵发出研磨声,请关闭电源,然后打开 DGX Station 电源四次。
  8. 确保冷却系统中的液体液位在储液罐中的最高液位。

    Line drawing of the gauge for the liquid in the GPU cooling system showing the Maximum Level indicator.

    如果液体已降至储液罐中的最高液位以下,请重复以下步骤序列,直到冷却系统中的液体液位保持在最高液位。

    1. 移除冷却系统泵顶部的注液口盖。
    2. 将更多冷却液分配到泵中,直到液体再次达到储液罐中的最高液位。
    3. 更换泵顶部的注液口盖。
    4. 打开 DGX Station 电源,并使其运行一分钟。
    5. 检查冷却系统中的液体液位。
  9. 关闭 DGX Station 电源。
  10. 更换 DGX Station 的侧面板。
    1. 将侧面板的底部边缘与 DGX Station 的底部边缘对齐。

      Line drawing showing the side-panel being aligned with the bottom edge of the DGX Station.

    2. 用力将面板推回原位以重新啮合闩锁。

      Line drawing showing the DGX Station side-panel latch being re-engaged.

A. 安全

为了降低人身伤害、触电、火灾和设备损坏的风险,在安装或维护您的产品之前,请阅读本文档并遵守本指南中的所有警告和预防措施。NVIDIA 产品在按照产品说明和一般安全规程安装和使用时,设计为安全运行。本文档中包含的指南解释了与计算机操作相关的潜在风险,并提供了旨在最大限度降低这些风险的重要安全规程。

本产品经过设计和测试,符合 IEC 60950-1(信息技术设备安全标准)。这也涵盖了世界各地基于 IEC 60950-1 的国家安全标准的实施,例如 UL 60950-1。这些标准降低了以下危害造成的伤害风险

  • 触电:产品部件中包含的危险电压级别
  • 火灾:过载、温度、材料可燃性
  • 机械:锋利的边缘、移动部件、不稳定性
  • 能量:具有高能量级别(240 伏安)或作为烧伤危险的电路
  • 热量:产品可触及部件处于高温状态
  • 化学:化学烟雾和蒸汽
  • 辐射:噪音、电离、激光、超声波

保留并遵守所有产品安全和操作说明。始终参考设备随附的文档。遵守产品和操作说明中的所有警告。



Warning symbol

警告:未能遵循这些安全说明可能会导致火灾、触电或其他伤害或损坏。如果误用电气设备,可能会造成危险。本产品或类似产品的操作必须始终由成人监督。请勿让儿童接触任何电气产品的内部,也不要让他们接触任何电缆。

A.1. 预期应用用途

本产品被评估为信息技术设备 (ITE),可以安装在办公室、学校、计算机机房和类似的商业类型场所。本产品对于其他产品类别和环境(如医疗、工业、住宅、报警系统和测试设备)的适用性(而非 ITE 应用)可能需要进一步评估。

A.2. 一般预防措施

为了降低人身伤害或设备损坏的风险

  • 在安装之前,关闭产品并断开所有交流电源线。
  • 在雷雨天气中执行本产品的安装、维护或重新配置时,请勿连接或断开任何电缆。
  • 当有火灾、水灾或结构损坏的迹象时,切勿打开任何设备。
  • 将产品放置在远离散热器、暖气片、火炉、放大器或其他产生热量的产品的地方。
  • 切勿在潮湿的地方使用本产品。
  • 避免通过产品开口插入异物。
  • 请勿使用可能桥接带电部件的导电工具。
  • 请勿对设备进行机械或电气改造。
  • 仅将产品与经批准的设备一起使用。
  • 遵守设备上标记的所有注意事项和说明。请勿试图破坏安全联锁装置(如果提供)。
  • 在温度始终在 10°C 到 30°C(50°F 到 86°F)范围内的场所操作 DGX Station

A.3. 电气预防措施

电源线

为了降低触电、火灾或设备损坏的风险

  • 仅使用随附的电源线,请勿将此电源线用于任何其他产品或任何其他目的。并非所有电源线的额定电流都相同。
  • 请勿将家用延长线与您的产品一起使用。家用延长线没有过载保护,不适合与计算机系统一起使用。
  • 如果您丢失或损坏了随附的电源线,或者由于任何原因必须更换电源线,请使用额定电压和电流与产品电气额定值标签上标记的电压和电流相符的电缆。电缆的电压和电流额定值必须大于产品上标记的电压和电流额定值。
  • 将电源线插入接地的(接地的)电源插座,该插座应始终易于触及。本产品配备三线接地型电源插头,该插头带有用于接地的第三个插脚。此插头仅可插入接地的电源插座。
  • 请勿禁用电源线接地插头。接地插头是一项重要的安全功能。
  • 请勿在电源线上放置物体。布置电缆,使其不会被意外踩踏或绊倒。
  • 请勿拉扯电缆。从电源插座上拔下产品插头时,请抓住插头。
  • 在可能的情况下,仅用一只手连接或断开电缆。
  • 请勿改装电源线或插头。请咨询有执照的电工或您的电力公司进行场地改造。

电源

  • 确保您的电源电压和频率与设备电气额定值标签上标明的电压和频率相符。如果您对要使用的电源类型有疑问,请联系您的授权服务提供商。
  • 将设备连接到正确接线和接地的电源插座,并始终遵守您当地或国家的布线规则。
  • 确保插座靠近设备并且易于断开连接。
  • 为了帮助保护您的系统免受突发、瞬时电力升高和降低的影响,请考虑使用浪涌抑制器或线路调节器。
  • 切勿将连接器强行插入端口。检查端口上是否有障碍物。如果连接器和端口不能轻松连接,则它们可能不匹配。确保连接器与端口匹配,并且您已将连接器相对于端口正确定位。
  • 请勿打开电源。电源内部存在危险电压、电流和能量级别。本产品中的电源不包含用户可维修的部件。退回制造商进行维修。

A.4. 通信电缆预防措施

为了降低因通信电缆而导致的触电风险

  • 请勿在雷雨天气中连接通信电缆。雷电可能会有触电的风险。
  • 请勿在潮湿的地方连接或使用通信电缆。
  • 在打开产品外壳或触摸或安装内部组件之前,断开通信电缆。

A.5. 其他危害

65 号提案警告

本产品含有加利福尼亚州已知会导致癌症、出生缺陷或其他生殖危害的化学物质。

加利福尼亚州有毒物质控制部门

高氯酸盐材料 – 可能需要特殊处理。请参阅 www.dtsc.ca.gov/hazardouswaste/perchlorate

高氯酸盐材料:锂电池 (CR2032) 含有高氯酸盐。请遵循处置说明。

Nickel safety warning symbol

DGX Station 机箱上的装饰性金属泡沫含有少量镍。金属泡沫并非设计用于直接且长时间的皮肤接触。虽然镍暴露不太可能成为问题,但如果您容易发生与镍相关的反应,则应注意这种可能性。

B. 连接、控件和指示灯

B.1. 前面板连接和控件

ID 类型 数量 描述
1 电源按钮 1 按下可开启或关闭 DGX Station
Line drawing showing the front-panel connections and controls for DGX Station.

B.2. 后面板连接和控件

当前单元

ID 类型 数量 描述
1 USB 3.1 Type-C 1 USB 3.1 Type-C 端口
2 以太网 2 10G LAN 端口(请参阅 LAN 端口指示灯):
  • 下方端口:LAN 1
  • 上方端口:LAN 2
3 USB 3.0 4 USB 3.0 端口
4 S/PDIF 音频输出 1 光纤 S/PDIF 输出端口
5 eSATA 2 eSATA 端口,用于连接外部存储设备,例如硬盘驱动器或光盘驱动器,需使用外部电源
6 交流输入 1 电源输入
7 复位按钮 1 按下可重启系统,而无需关闭系统电源
8 USB 3.1 Type-A 1 USB 3.1 Type-A 端口
9 音频 I/O 5 用于 2 声道、4 声道、6 声道或 8 声道音频的 3.5 毫米 I/O 端口(请参阅 音频 I/O 连接
10 DisplayPort 3 用于连接最多 3 个显示器的端口
11 电源开关 1 开启和关闭电源
Line drawing showing the rear-panel connections and controls for DGX Station.

早期单元

ID 类型 数量 描述
1 USB 3.1 Type-C 1 USB 3.1 Type-C 端口
2 以太网 2 10G LAN 端口(请参阅 LAN 端口指示灯):
  • 下方端口:LAN 1
  • 上方端口:LAN 2
3 USB 3.0 4 USB 3.0 端口
4 S/PDIF 音频输出 1 光纤 S/PDIF 输出端口
5 eSATA 2 eSATA 端口,用于连接外部存储设备,例如硬盘驱动器或光盘驱动器,需使用外部电源
6 电源开关 1 开启和关闭电源
7 复位按钮 1 按下可重启系统,而无需关闭系统电源
8 USB 3.1 Type-A 1 USB 3.1 Type-A 端口
9 音频 I/O 5 用于 2 声道、4 声道、6 声道或 8 声道音频的 3.5 毫米 I/O 端口(请参阅 音频 I/O 连接
10 DisplayPort 3 用于连接最多 3 个显示器的端口
11 交流输入 1 电源输入
Line drawing showing the rear-panel connections and controls for earlier DGX Station units.

B.3. LAN 端口指示灯

每个以太网 LAN 端口上的 LED 指示连接状态,如下图所示,并在下表中进行了描述。



Line drawing showing a LAN port and its actibity and speed LED indicators


速度 LED

状态 描述
熄灭 100 Mbps 连接
橙色 1 Gbps 连接
绿色 10 Gbps 连接

活动/链路 LED

状态 描述
熄灭 无链路
绿色 已连接
绿色(闪烁) 数据活动

B.4. 音频 I/O 连接

ID 端口颜色 2 声道 4 声道 6 声道 8 声道
1 粉色 麦克风输入 麦克风输入 麦克风输入 麦克风输入
2 黑色 不适用 后置扬声器 后置扬声器 后置扬声器
3 橙色 不适用 不适用 中置/低音炮 中置/低音炮
4 浅蓝色 线路输入 线路输入 线路输入 侧扬声器
5 石灰绿 线路输出 前置扬声器 前置扬声器 前置扬声器
Line drawing showing the deatils of the rear-panel audio I/O connections

C. 合规性

NVIDIA DGX Station 符合本节列出的法规。

C.4. 巴西

INMETRO

C.5. 加拿大

加拿大创新、科学和经济发展部 (ISED)

CAN ICES-3(A)/NMB-3(A)

A 类数字设备符合加拿大抗扰设备法规的所有要求。

Cet appareil numérique de la classe A respecte toutes les exigences du Règlement sur le matériel brouilleur du Canada.

C.6. 中国

RoHS 材料含量

欧盟

欧洲合格认证;Conformité Européenne (CE)

本产品为 A 类产品。在住宅环境中,本产品可能会产生射频干扰,在这种情况下,用户可能需要采取适当的措施。

本产品已标记 CE 标志,以表明其符合性。

本设备符合以下指令

  • EMC 指令 (2014/30/EU),适用于 A 类 I.T.E 设备。
  • 低电压指令 (2014/35/EU),适用于电气安全。
  • RoHS 指令 (2011/65/EU),适用于有害物质。
  • ErP 指令 (2009/125/EC),适用于欧洲生态设计。

符合性声明副本(针对基本要求)可直接从 NVIDIA GmbH 获取(地址:Floessergasse 2, 81369 Munich, Germany)。

C.8. 印度

BIS

自我声明 - 符合 IS13252:2010, R-41078743

俄罗斯

CU-TR

C.12. 南非

LOA

符合 SANS IEC 60950

SABS

符合 SANS 222 CISPR 22

C.15. 美国

联邦通信委员会 (FCC)

FCC 标记(A 类)

本设备符合 FCC 规则第 15 部分。操作需符合以下两个条件:(1) 本设备不得造成有害干扰,并且 (2) 本设备必须接受收到的任何干扰,包括可能导致设备意外操作的干扰。

注意:本设备已经过测试,符合 FCC 规则第 15 部分对 A 类数字设备的限制。这些限制旨在为设备在商业环境中运行时提供合理的保护,以防止有害干扰。本设备会产生、使用和辐射射频能量,如果未按照说明手册安装和使用,可能会对无线电通信造成有害干扰。在住宅区域操作本设备可能会造成有害干扰,在这种情况下,用户需要自费纠正干扰。

美国/加拿大

cULus 认证标志

D. DGX Station 硬件规格

D.1. 环境条件

条件 工作范围 非工作范围
环境温度 10°C 至 30°C(50°F 至 86°F) 5°C 至 40°C(41°F 至 104°F)
相对湿度 10% 至 80%(非冷凝) 8% 至 90%(非冷凝)

D.2. 组件规格

组件 数量 描述
CPU 1 Intel Xeon E5-2698 v4 2.2 GHz(20 核)
GPU - 当前单元 4 NVIDIA Tesla V100-DGXS-32GB,具有
  • 4×125 TeraFLOPS(总计 500 TeraFLOPS),FP16
  • 4×32 GB(总计 128 GB)GPU 内存
  • 4×640(总计 2,560)个 NVIDIA Tensor 核心
  • 4×5,120(总计 20,480)个 NVIDIA CUDA® 核心
GPU - 早期型号 4 NVIDIA Tesla V100-DGXS-16GB,具有
  • 4×125 TeraFLOPS(总计 500 TeraFLOPS),FP16
  • 4×16 GB(总计 64 GB)GPU 内存
  • 4×640(总计 2,560)个 NVIDIA Tensor 核心
  • 4×5,120(总计 20,480)个 NVIDIA CUDA® 核心
系统内存 8 8×32 GB(总计 256 GB)ECC 注册 RDIMM DDR4 SDRAM
注意: 您可以更换所有八个出厂安装的 32 GB DIMM,换成 64 GB DIMM,从而获得 512 GB 的总容量。
数据存储 3 3×1.92 TB(总计 5.76 TB)2.5 英寸 6 Gb/s SATA III SSD,RAID 0 配置
注意:DGX OS Desktop 4.4.0 或用于 Red Hat Enterprise Linux 或 CentOS EL7-20.02 的 DGX 软件起:您可以添加四个 1.92 TB SSD 用于数据存储,从而在 RAID 0 配置中获得 13.44 TB 的总容量。
操作系统存储 1 1.92 TB 2.5 英寸 6 Gb/s SATA III SSD

D.3. 机械规格

规格
高度 25 英寸(639 毫米)
宽度 10 英寸(256 毫米)
深度 20 英寸(518 毫米)
毛重 88 磅40 公斤

D.4. 电源规格

输入 注释
115 - 240 VAC,12-8A,(50 - 60 Hz) 在所有系统资源高负载的情况下,DGX Station 的功耗可能达到 1,500 瓦(环境温度 30°C)。

请注意您的电源的供电能力,以避免电路过载。

E. NVIDIA DGX Station 客户支持

如需报告、排除故障或诊断 DGX Station 系统的问题,请联系 NVIDIA 企业级支持。

有关如何获得支持的详细信息,请访问 NVIDIA 企业级支持网站 (https://www.nvidia.com/en-us/support/enterprise/)。

我们的支持团队可以帮助收集有关您问题的适当信息,并在需要时协调内部资源。