集群扩展配置#

在准备好镜像和类别后，环境现在已准备好进行 AWS 集成和初始配置。AWS 集成将使用 cmcluster-extension 命令完成。

创建一个 AWS IAM 组，其中包含适当的策略，供用户帐户集成到本地 BCM 头节点。

要创建最低限度的可行策略集，请参阅这篇 Bright Knowledge Base 文章。

将策略分配给目标组，并在该组中配置新用户。为该用户创建一个新的访问密钥和关联的秘密访问密钥，以便与 Bright 一起使用。安全地记录访问密钥和秘密访问密钥，以便在本节中使用。
运行 cm-cluster-extension 命令以开始。
cm-cluster-extension
选择 AWS 扩展，然后选择确定。
选择添加 新的 AWS 提供商，然后选择确定。
输入所需的 AWS 凭证信息，然后选择确定。
通过选择默认设置类型将提供商添加到新区域，然后选择确定。
输入云节点的数量 4，然后选择确定。

将有三个节点用于 Kubernetes (K8s) 控制平面，一个节点作为 GPU worker。稍后可以添加更多节点。
选择适当的地理区域，然后选择确定。

选择靠近本地集群的区域通常会提高网络性能。如果配置旨在实现区域容错，请选择更远的区域。由于并非所有实例在所有区域都可用，因此还应考虑所需的实例类型。
在后续屏幕中选择一个区域，然后选择确定。

本示例中使用 us-west-2。
选择默认区域，然后选择确定。

在本示例中，唯一选项是 us-west-2，因为没有配置其他区域。
为集群扩展将创建的公共子网选择一个可用区，然后选择确定。

本示例中选择了 us-west-2a。

为集群扩展将创建的私有子网选择一个可用区，然后选择确定。

再次选择了 us-west-2a。

为云节点选择 c6a 实例类型系列，然后选择确定。

c6a 实例广泛可用，并为此用例提供良好的性能和价值。在稍后的步骤中，预分配的公共云节点之一将被配置为使用具有 NVIDIA GPU 的实例类型。
选择 c6a.large 实例，然后选择确定。
为云 director 选择 c6a 实例类型系列，然后选择确定。
选择 c6a.large 实例类型，然后选择确定。
选择选择镜像，然后选择确定。

这将选择可以在公共云中使用的镜像子集，并消除那些不能使用的镜像（例如 DGX OS）。
选择为此部署创建的镜像，然后选择确定。

应选中 cloud-director-image、k8s-cloud-gpu-worker-image 和 k8scloudmasterimage。如果需要，稍后可以添加其他镜像。
为默认云节点镜像选择 k8s-cloud-master-image，然后选择确定。
在“摘要”屏幕上选择保存 配置 & 部署，然后选择确定。
指定文件路径，然后选择确定。

将显示默认文件路径。应将区域名称或其他标识信息添加到文件名中，以允许多个配置文件。

配置开始在 BCM 头节点上执行。

完成后，应显示如下输出。

## Progress: 100

Took:     04:09 min.
Progress: 100/100
################### Finished execution for ‘Cluster Extension’, status: completed

Cluster Extension finished!

验证初始设置是否成功。

在 cmsh 中运行 list -f，如屏幕截图所示，并将其与提供的输出进行比较 - 它应该相似（其他列出的系统已被编辑，并且确切的 IP 子网可能略有不同）。
如果需要，增加 OpenVPN 端口。

集群扩展功能依赖于 OpenVPN 在本地头节点和目标公共云环境之间运行 VPN 隧道。默认配置使用 UDP 端口 1194。要配置不同的协议或端口，请参阅这篇 Bright Knowledge Base 文章。