部署#
本文档是 NVIDIA DGX BasePOD:部署指南,以 NVIDIA DGX A100 系统为例 的一部分。
DGX BasePOD 的部署涉及预设置、部署以及使用 Base Command Manager (BCM) 来配置 Kubernetes (K8s) 集群,并可选择部署 Jupyter。
警告
#
提示符表示您在头节点上以 root 用户身份执行的命令。%
提示符表示您在 cmsh 中执行的命令。
初始部署步骤#
准备基础设施。
物理安装应在使用本文档之前完成,同时在站点调查中捕获有关预期部署的信息。有关本文档使用的示例站点调查,请参阅 站点调查。
配置网络交换机。
有关本文档使用的示例配置,请参阅 交换机配置。有关连接和配置交换机的具体信息,请参阅其相关的用户指南。
配置 NFS 解决方案。
设置 DGX BIOS,使 DGX 系统默认从 PXE 启动。BCM 要求 DGX 系统从 PXE 启动。
连接到 DGX 系统的 BMC。
在系统清单窗口的“网络”选项卡中,找到 Storage 4-2 和 Storage 5-2 接口的 MAC 地址。
在 DGX A100 系统 BIOS 中,将启动选项 #1 配置为 [NETWORK]。将其他启动设备设置为 [DISABLED]。
禁用 PXE 启动设备,Storage 4-2 和 Storage 5-2 除外。将它们设置为使用 IPv4。
为 BMC 配置静态 IP 地址。导航到 BIOS 的“服务器管理”选项卡,进入 BMC 网络配置菜单,然后将 IPv4 Lan 通道 1 配置地址源选项设置为 StaticAddress,输入 IP 地址、子网和网关/路由器信息。
确保网络启动选项配置为将用于此集群的 K8s 控制平面节点的主要启动选项。这是一个将从网络启动的系统示例,使用插槽 1 端口 2 和插槽 2 端口 2。
从 Bright Cluster Manager/Base Command Manager 下载站点下载 BCM ISO。选择 Base Command Manager 10、Ubuntu 20.04,并选中“包含 NVIDIA DGX A100 软件镜像”复选框。
将 ISO 刻录到 DVD 或可启动 USB 设备。也可以将其挂载为虚拟介质并使用 BMC 进行安装。后者的具体机制将因供应商而异。
确保目标头节点的 BIOS 配置为 UEFI 模式,并且其启动顺序配置为从包含 BCM 安装程序镜像的介质启动。
启动安装介质。
在 grub 菜单中,选择“Start Base Command Manager Graphical Installer”。
在启动画面上选择“Start installation”。
通过选中“我同意”并选择“下一步”来接受 NVIDIA EULA 的条款。
通过选中“我同意”并选择“下一步”来接受 Ubuntu Server UELA 的条款。
除非另有指示,否则选择“下一步”,无需修改启动时要加载的内核模块。
验证硬件信息是否正确,然后选择“下一步”。例如,目标存储设备和已连接线缆的主机网络接口是否存在(在本例中,三个 NVMe 驱动器是目标存储设备,ens1np0 和 ens2np01 是已连接线缆的主机网络接口)。
在“安装源”屏幕上,选择适当的源,然后选择“下一步”。运行介质完整性检查是可选的。
在“集群设置”屏幕上,输入所需信息,然后选择“下一步”。输入站点调查中的信息。示例站点调查位于 站点调查 中。
在“工作负载管理器”屏幕上,选择“无”,然后选择“下一步”。头节点安装完成后,将部署 K8s 用于容器编排。
在“网络拓扑”屏幕上,选择网络拓扑“类型 1”,然后选择“下一步”。在 DGX BasePOD 架构中,集群节点通过内部网络连接到头节点,头节点充当它们的默认网关。
在“头节点”屏幕上,输入“主机名”、“管理员密码”,为“硬件制造商”选择“其他”,然后选择“下一步”。
配置“计算节点”屏幕。
将“节点数”设置为 4。
将“节点位数”设置为 2。
将“硬件制造商”设置为“NVIDIA DGX”。
配置“BMC 配置”屏幕。
为“头节点”和“计算节点”都选择“是”。
从“BMC 网络类型选择列表”中为“头节点”和“计算节点”都选择“IPMI”。
对两种节点类型都选择“否”回答“是否使用 DHCP?”问题。
为“节点启动时是否自动配置 BMC?”选择“是”。
从“BMC 连接到哪个以太网段?”列表中选择“新建专用网络”。
配置“网络”屏幕。
根据站点调查配置“头节点接口”,然后选择“下一步”。
在“计算节点网络接口”屏幕上,将 BOOTIF 和 ipmi0 的偏移量配置为 0.0.0.3,然后选择“下一步”。
在“磁盘布局”屏幕上配置“安装驱动器”,然后选择“下一步”。
配置“磁盘布局设置”屏幕,然后选择“下一步”。将“头节点磁盘布局”设置为“一个大分区”,将“计算节点磁盘布局”设置为“默认标准布局”。
选中“OFED/OPA 堆栈”框,并在“附加软件”屏幕上选择“Mellanox OFED 5.8”,然后选择“下一步”。
查看“摘要”屏幕上的信息。“摘要”屏幕提供了一个机会,在部署开始之前确认头节点和基本集群配置。如果任何内容与预期不符,请使用“返回”按钮导航到相应的屏幕以纠正任何错误。
配置“部署”屏幕,然后选择“重启”。选中“安装完成后自动重启”复选框,以便在成功完成部署后重启主机。选择“安装日志”以查看安装摘要。
后续步骤#
使用以下文档继续您的部署。