部署#

本文档是 NVIDIA DGX BasePOD:部署指南,以 NVIDIA DGX A100 系统为例 的一部分。

DGX BasePOD 的部署涉及预设置、部署以及使用 Base Command Manager (BCM) 来配置 Kubernetes (K8s) 集群,并可选择部署 Jupyter。

警告

# 提示符表示您在头节点上以 root 用户身份执行的命令。% 提示符表示您在 cmsh 中执行的命令。

初始部署步骤#

  1. 准备基础设施。

    物理安装应在使用本文档之前完成,同时在站点调查中捕获有关预期部署的信息。有关本文档使用的示例站点调查,请参阅 站点调查

  2. 配置网络交换机。

    有关本文档使用的示例配置,请参阅 交换机配置。有关连接和配置交换机的具体信息,请参阅其相关的用户指南。

  3. 配置 NFS 解决方案。

    1. 存储 中所述,NFS 配置步骤不在本文档的范围内。

    2. 此 DGX BasePOD 部署使用路径 /var/nfs/general,这是 站点调查表 3 中提供的 NFS 导出路径。

    3. 对 NFS 服务器导出文件 /etc/exports 使用以下参数

      1/var/nfs/general *(rw,sync,no_root_squash,no_subtree_check)
      
  4. 设置 DGX BIOS,使 DGX 系统默认从 PXE 启动。BCM 要求 DGX 系统从 PXE 启动。

    1. 连接到 DGX 系统的 BMC。

    2. 在系统清单窗口的“网络”选项卡中,找到 Storage 4-2 和 Storage 5-2 接口的 MAC 地址。

      _images/deploy-4.png
    3. 在 DGX A100 系统 BIOS 中,将启动选项 #1 配置为 [NETWORK]。将其他启动设备设置为 [DISABLED]。

      _images/deploy-4-2.png
    4. 禁用 PXE 启动设备,Storage 4-2 和 Storage 5-2 除外。将它们设置为使用 IPv4。

      _images/deploy-4-3.png
    5. 为 BMC 配置静态 IP 地址。导航到 BIOS 的“服务器管理”选项卡,进入 BMC 网络配置菜单,然后将 IPv4 Lan 通道 1 配置地址源选项设置为 StaticAddress,输入 IP 地址、子网和网关/路由器信息。

      _images/deploy-4-4.png
  5. 确保网络启动选项配置为将用于此集群的 K8s 控制平面节点的主要启动选项。这是一个将从网络启动的系统示例,使用插槽 1 端口 2 和插槽 2 端口 2。

    _images/deploy-5.png
  6. 从 Bright Cluster Manager/Base Command Manager 下载站点下载 BCM ISO。选择 Base Command Manager 10、Ubuntu 20.04,并选中“包含 NVIDIA DGX A100 软件镜像”复选框。

    _images/deploy-6.png
  7. 将 ISO 刻录到 DVD 或可启动 USB 设备。也可以将其挂载为虚拟介质并使用 BMC 进行安装。后者的具体机制将因供应商而异。

  8. 确保目标头节点的 BIOS 配置为 UEFI 模式,并且其启动顺序配置为从包含 BCM 安装程序镜像的介质启动。

  9. 启动安装介质。

  10. 在 grub 菜单中,选择“Start Base Command Manager Graphical Installer”。

    _images/deploy-10.png
  11. 在启动画面上选择“Start installation”。

    _images/deploy-11.png
  12. 通过选中“我同意”并选择“下一步”来接受 NVIDIA EULA 的条款。

    _images/deploy-12.png
  13. 通过选中“我同意”并选择“下一步”来接受 Ubuntu Server UELA 的条款。

    _images/deploy-13.png
  14. 除非另有指示,否则选择“下一步”,无需修改启动时要加载的内核模块。

    _images/deploy-14.png
  15. 验证硬件信息是否正确,然后选择“下一步”。例如,目标存储设备和已连接线缆的主机网络接口是否存在(在本例中,三个 NVMe 驱动器是目标存储设备,ens1np0 和 ens2np01 是已连接线缆的主机网络接口)。

    _images/deploy-15.png
  1. 在“安装源”屏幕上,选择适当的源,然后选择“下一步”。运行介质完整性检查是可选的。

    _images/deploy-17.png
  2. 在“集群设置”屏幕上,输入所需信息,然后选择“下一步”。输入站点调查中的信息。示例站点调查位于 站点调查 中。

    _images/deploy-18.png
  3. 在“工作负载管理器”屏幕上,选择“无”,然后选择“下一步”。头节点安装完成后,将部署 K8s 用于容器编排。

    _images/deploy-19.png
  4. 在“网络拓扑”屏幕上,选择网络拓扑“类型 1”,然后选择“下一步”。在 DGX BasePOD 架构中,集群节点通过内部网络连接到头节点,头节点充当它们的默认网关。

    _images/deploy-20.png
  5. 在“头节点”屏幕上,输入“主机名”、“管理员密码”,为“硬件制造商”选择“其他”,然后选择“下一步”。

    _images/deploy-21.png
  6. 配置“计算节点”屏幕。

    1. 将“节点数”设置为 4。

    2. 将“节点位数”设置为 2。

    3. 将“硬件制造商”设置为“NVIDIA DGX”。

  1. 配置“BMC 配置”屏幕。

    1. 为“头节点”和“计算节点”都选择“是”。

    2. 从“BMC 网络类型选择列表”中为“头节点”和“计算节点”都选择“IPMI”。

    3. 对两种节点类型都选择“否”回答“是否使用 DHCP?”问题。

    4. 为“节点启动时是否自动配置 BMC?”选择“是”。

    5. 从“BMC 连接到哪个以太网段?”列表中选择“新建专用网络”。

    _images/deploy-23.png
  2. 配置“网络”屏幕。

    1. externalnet:根据站点调查设置“基本 IP 地址”、“网络掩码”、“网关”和“域名”。

      _images/deploy-24.png
    2. internalnet:根据站点调查设置“基本 IP 地址”和“网络掩码”。

      _images/deploy-24-2.png
    3. ipminet:根据站点调查设置“基本 IP 地址”、“网络掩码”和“网关”。

      _images/deploy-24-3.png
  3. 根据站点调查配置“头节点接口”,然后选择“下一步”。

    _images/deploy-25.png
  4. 在“计算节点网络接口”屏幕上,将 BOOTIF 和 ipmi0 的偏移量配置为 0.0.0.3,然后选择“下一步”。

    _images/deploy-26.png
  5. 在“磁盘布局”屏幕上配置“安装驱动器”,然后选择“下一步”。

    _images/deploy-27.png
  6. 配置“磁盘布局设置”屏幕,然后选择“下一步”。将“头节点磁盘布局”设置为“一个大分区”,将“计算节点磁盘布局”设置为“默认标准布局”。

    _images/deploy-28.png
  7. 选中“OFED/OPA 堆栈”框,并在“附加软件”屏幕上选择“Mellanox OFED 5.8”,然后选择“下一步”。

    _images/deploy-29.png
  8. 查看“摘要”屏幕上的信息。“摘要”屏幕提供了一个机会,在部署开始之前确认头节点和基本集群配置。如果任何内容与预期不符,请使用“返回”按钮导航到相应的屏幕以纠正任何错误。

    _images/deploy-30.png
  9. 配置“部署”屏幕,然后选择“重启”。选中“安装完成后自动重启”复选框,以便在成功完成部署后重启主机。选择“安装日志”以查看安装摘要。

    _images/deploy-31.png

后续步骤#

使用以下文档继续您的部署。