初始集群设置#

本文档详细介绍了如何在 NVIDIA DGX BasePOD™ 配置上部署 NVIDIA Base Command™ Manager (BCM)。

在部署 BCM 之前，必须完成物理安装和网络交换机配置。此外，有关预期部署的信息应记录在现场勘测中。

DGX BasePOD 的部署阶段包括使用 BCM 来配置和管理 Kubernetes 集群。

将 DGX 系统配置为默认从 PXE 启动。
1. 使用 KVM 或崩溃车连接到 DGX 系统，进入 BIOS 菜单，并将启动选项 #1 配置为 [NETWORK]。
2. 确保其他启动选项为 [Disabled]，并导航到 UEFI NETWORK Drives BBS Priorities 菜单。
3. 将启动选项 #1 和启动选项 #2 设置为对 Storage 4-2 和 Storage 5-2 使用 IPv4。
4. 确保其他启动选项为 [Disabled]。
5. 选择保存并退出。
在故障转移头节点和管理节点上，确保网络启动配置为主要选项。确保连接到头节点和 CPU 节点上网络的 Mellanox 端口也设置为以太网模式。

这是一个将从网络启动的系统的示例，其中插槽 1 端口 2 和插槽 2 端口 2。
从 Bright 下载站点下载 BCM ISO。选择 Base Command Manager 10、RHEL 9.2 并选中“Include NVIDIA CUDA Packages and MOFED packages”复选框。
将 ISO 刻录到 DVD 或可启动 USB 设备。

它也可以作为虚拟介质挂载并使用 BMC 安装。后者的具体机制因供应商而异。
确保目标头节点的 BIOS 配置为 UEFI 模式，并且其启动顺序配置为启动包含 BCM 安装程序映像的介质。
启动安装介质。
在 grub 菜单中，选择启动 Base Command Manager 图形安装程序。
在启动画面上选择开始安装。
通过选中我同意，然后选择下一步，接受 NVIDIA EULA 的条款。
通过选中我同意，然后选择下一步，接受 Ubuntu Server UELA 的条款。
除非另有指示，否则选择下一步，无需修改启动时要加载的内核模块。
验证硬件信息是否正确，然后选择下一步。

例如，目标存储设备和已布线的主机网络接口存在（在本例中，三个 NVMe 驱动器是目标存储设备，ens1np0 和 ens2np01 是已布线的主机网络接口）。
在安装源屏幕上，选择合适的源，然后选择下一步。

运行介质完整性检查是可选的。
在集群设置屏幕上，输入所需信息，然后选择下一步。
在工作负载管理器屏幕上，选择“无”，然后选择下一步。
在网络拓扑屏幕上，为数据中心环境选择网络类型，然后选择下一步。
在头节点屏幕上，输入主机名、管理员密码，为硬件制造商选择“其他”，然后选择下一步。
在“计算节点设置”中将节点位数调整为 2，然后选择下一步。

确保节点基本名称为 node。其他值将在安装后期更新。
在 BMC 配置屏幕上，对于头节点和计算节点都选择是。按照下面的屏幕截图进行其余配置。然后选择下一步。
在“网络”屏幕上，输入 externalnet 的所需信息，然后选择下一步。
导航到 internalnet 选项卡，输入 internalnet 的所需信息，将 MTU 值保留为默认值，然后选择下一步。
导航到 ipminet 选项卡，输入 ipminet 的所需信息，然后选择下一步。
在“头节点接口”屏幕上，确保一个接口配置了头节点的目标 internalnet IP，然后选择下一步。
在计算节点接口屏幕上，将偏移量更改为 0.0.0.3，然后选择下一步。

这些将在安装后更新。
在磁盘布局屏幕上，选择目标安装位置，然后选择下一步。
在磁盘布局设置屏幕上，为头节点选择一个大分区，为计算节点选择默认标准布局。然后选择下一步。
在附加软件屏幕中，选择 CUDA 和 MOFED 23.10，然后选择下一步。
在摘要屏幕上确认信息，然后选择下一步。

摘要屏幕提供了在部署开始之前确认头节点和基本集群配置的机会。此配置将在部署完成后为 DGX BasePOD 更新/修改。如果值与预期不符，请使用“后退”按钮导航到相应的屏幕以纠正任何错误。
部署完成后，选择重启。