集群扩展配置#
在准备好镜像和类别后,环境现在已准备好进行 AWS 集成和初始配置。AWS 集成将使用 cmcluster-extension
命令完成。
创建一个 AWS IAM 组,其中包含适当的策略,供用户帐户集成到本地 BCM 头节点。
要创建最低限度的可行策略集,请参阅这篇 Bright Knowledge Base 文章。
将策略分配给目标组,并在该组中配置新用户。为该用户创建一个新的访问密钥和关联的秘密访问密钥,以便与 Bright 一起使用。安全地记录访问密钥和秘密访问密钥,以便在本节中使用。
运行 cm-cluster-extension 命令以开始。
cm-cluster-extension
选择 AWS 扩展,然后选择 确定。
选择添加 新的 AWS 提供商,然后选择 确定。
输入所需的 AWS 凭证信息,然后选择 确定。
通过选择 默认 设置类型将提供商添加到新区域,然后选择 确定。
输入云节点的数量 4,然后选择 确定。
将有三个节点用于 Kubernetes (K8s) 控制平面,一个节点作为 GPU worker。稍后可以添加更多节点。
选择适当的地理区域,然后选择 确定。
选择靠近本地集群的区域通常会提高网络性能。如果配置旨在实现区域容错,请选择更远的区域。由于并非所有实例在所有区域都可用,因此还应考虑所需的实例类型。
在后续屏幕中选择一个区域,然后选择 确定。
本示例中使用 us-west-2。
选择默认区域,然后选择 确定。
在本示例中,唯一选项是 us-west-2,因为没有配置其他区域。
为集群扩展将创建的公共子网选择一个可用区,然后选择 确定。
本示例中选择了 us-west-2a。
为集群扩展将创建的私有子网选择一个可用区,然后选择 确定。
![]()
再次选择了 us-west-2a。
为云节点选择 c6a 实例类型系列,然后选择 确定。
c6a 实例广泛可用,并为此用例提供良好的性能和价值。在稍后的步骤中,预分配的公共云节点之一将被配置为使用具有 NVIDIA GPU 的实例类型。
选择 c6a.large 实例,然后选择 确定。
为云 director 选择 c6a 实例类型系列,然后选择 确定。
选择 c6a.large 实例类型,然后选择 确定。
选择 选择 镜像,然后选择 确定。
这将选择可以在公共云中使用的镜像子集,并消除那些不能使用的镜像(例如 DGX OS)。
选择为此部署创建的镜像,然后选择 确定。
应选中 cloud-director-image、k8s-cloud-gpu-worker-image 和 k8scloudmasterimage。如果需要,稍后可以添加其他镜像。
为默认云节点镜像选择 k8s-cloud-master-image,然后选择 确定。
在“摘要”屏幕上选择 保存 配置 & 部署,然后选择 确定。
指定文件路径,然后选择 确定。
将显示默认文件路径。应将区域名称或其他标识信息添加到文件名中,以允许多个配置文件。
配置开始在 BCM 头节点上执行。
完成后,应显示如下输出。
1## Progress: 100 2 3Took: 04:09 min. 4Progress: 100/100 5################### Finished execution for ‘Cluster Extension’, status: completed 6 7Cluster Extension finished!
验证初始设置是否成功。
在 cmsh 中运行
list -f
,如屏幕截图所示,并将其与提供的输出进行比较 - 它应该相似(其他列出的系统已被编辑,并且确切的 IP 子网可能略有不同)。如果需要,增加 OpenVPN 端口。
集群扩展功能依赖于 OpenVPN 在本地头节点和目标公共云环境之间运行 VPN 隧道。默认配置使用 UDP 端口 1194。要配置不同的协议或端口,请参阅这篇 Bright Knowledge Base 文章。