先决条件#

本指南中的部署程序依赖于 DGX BasePOD 配置上已安装 BCM 和 K8s。如果需要,请参阅 NVIDIA DGX BasePOD 部署指南,以获取关于如何执行安装的信息。

请确保在开始安装之前,Run:ai 支持团队已提供租户名称和应用程序密钥。租户名称是用于访问 Run:ai Atlas 平台的专用控制平面 URL,应用程序密钥是安全地与平台通信所需的 API 密钥。

此外,集群 URL、证书(.crt 格式)和私钥(密钥文件)必须在安装开始之前由客户的 IT 部门生成。

注意

Run:ai 将无法使用自签名证书正常运行。

集群 URL 对应于由客户的企业 DNS 服务器创建和维护的 DNS A 记录。DNS A 记录的主机名应该是唯一的,并解析为 BCM K8s 集群中的一个节点。

集群 URL 必须附加 NGINX ingress 服务正在监听的端口。在 CLI 中运行以下命令以确定 ingress-nginx 端口映射

1root@basepod-head1:~# kubectl get svc -n ingress-nginx
2NAME                                                                TYPE            CLUSTER-IP          EXTERNAL-IP PORT(S) AGE
3ingress-nginx-controller            NodePort        10.150.30.30    10.130.122.9    80:30080/TCP, 443:3044 3/TCP    12d
4ingress-nginx-controller-admission  ClusterIP       10.150.166.37   <none>  443/TCP 12d

在此示例中,端口 443 的映射是 30453。

此外,证书 CN 必须与集群 URL 的 DNS 记录匹配,以保护所有入站到集群的流量。

有关其他需要的先决条件,请参阅 Run:ai 安装集群先决条件