集群扩展配置#

在准备好镜像和类别后,环境现在已准备好进行 AWS 集成和初始配置。AWS 集成将使用 cmcluster-extension 命令完成。

  1. 创建一个 AWS IAM 组,其中包含适当的策略,供用户帐户集成到本地 BCM 头节点。

    要创建最低限度的可行策略集,请参阅这篇 Bright Knowledge Base 文章

    将策略分配给目标组,并在该组中配置新用户。为该用户创建一个新的访问密钥和关联的秘密访问密钥,以便与 Bright 一起使用。安全地记录访问密钥和秘密访问密钥,以便在本节中使用。

  2. 运行 cm-cluster-extension 命令以开始。

    cm-cluster-extension
    
  3. 选择 AWS 扩展,然后选择 确定

    _images/cluster-config-01.png
  4. 选择添加 新的 AWS 提供商,然后选择 确定

    _images/cluster-config-02.png
  5. 输入所需的 AWS 凭证信息,然后选择 确定

    _images/cluster-config-03.png
  6. 通过选择 默认 设置类型将提供商添加到新区域,然后选择 确定

    _images/cluster-config-04.png
  7. 输入云节点的数量 4,然后选择 确定

    _images/cluster-config-05.png

    将有三个节点用于 Kubernetes (K8s) 控制平面,一个节点作为 GPU worker。稍后可以添加更多节点。

  8. 选择适当的地理区域,然后选择 确定

    _images/cluster-config-06.png

    选择靠近本地集群的区域通常会提高网络性能。如果配置旨在实现区域容错,请选择更远的区域。由于并非所有实例在所有区域都可用,因此还应考虑所需的实例类型。

  9. 在后续屏幕中选择一个区域,然后选择 确定

    _images/cluster-config-07.png

    本示例中使用 us-west-2

  10. 选择默认区域,然后选择 确定

    _images/cluster-config-08.png

    在本示例中,唯一选项是 us-west-2,因为没有配置其他区域。

  11. 为集群扩展将创建的公共子网选择一个可用区,然后选择 确定

    _images/cluster-config-09.png

    本示例中选择了 us-west-2a

为集群扩展将创建的私有子网选择一个可用区,然后选择 确定

_images/cluster-config-10.png

再次选择了 us-west-2a

  1. 为云节点选择 c6a 实例类型系列,然后选择 确定

    _images/cluster-config-11.png

    c6a 实例广泛可用,并为此用例提供良好的性能和价值。在稍后的步骤中,预分配的公共云节点之一将被配置为使用具有 NVIDIA GPU 的实例类型。

  2. 选择 c6a.large 实例,然后选择 确定

    _images/cluster-config-12.png
  3. 为云 director 选择 c6a 实例类型系列,然后选择 确定

    _images/cluster-config-13.png
  4. 选择 c6a.large 实例类型,然后选择 确定

    _images/cluster-config-14.png
  5. 选择 选择 镜像,然后选择 确定

    _images/cluster-config-15.png

    这将选择可以在公共云中使用的镜像子集,并消除那些不能使用的镜像(例如 DGX OS)。

  6. 选择为此部署创建的镜像,然后选择 确定

    _images/cluster-config-16.png

    应选中 cloud-director-imagek8s-cloud-gpu-worker-imagek8scloudmasterimage。如果需要,稍后可以添加其他镜像。

  7. 为默认云节点镜像选择 k8s-cloud-master-image,然后选择 确定

    _images/cluster-config-17.png
  8. 在“摘要”屏幕上选择 保存 配置 & 部署,然后选择 确定

    _images/cluster-config-18.png
  9. 指定文件路径,然后选择 确定

    _images/cluster-config-19.png

    将显示默认文件路径。应将区域名称或其他标识信息添加到文件名中,以允许多个配置文件。

  10. 配置开始在 BCM 头节点上执行。

    完成后,应显示如下输出。

    1## Progress: 100
    2
    3Took:     04:09 min.
    4Progress: 100/100
    5################### Finished execution for ‘Cluster Extension’, status: completed
    6
    7Cluster Extension finished!
    
  11. 验证初始设置是否成功。

    _images/cluster-config-20.png

    在 cmsh 中运行 list -f,如屏幕截图所示,并将其与提供的输出进行比较 - 它应该相似(其他列出的系统已被编辑,并且确切的 IP 子网可能略有不同)。

  12. 如果需要,增加 OpenVPN 端口。

    集群扩展功能依赖于 OpenVPN 在本地头节点和目标公共云环境之间运行 VPN 隧道。默认配置使用 UDP 端口 1194。要配置不同的协议或端口,请参阅这篇 Bright Knowledge Base 文章