先决条件#
本指南中的部署程序依赖于 DGX BasePOD 配置上已安装 BCM 和 K8s。如果需要,请参阅 NVIDIA DGX BasePOD 部署指南,以获取关于如何执行安装的信息。
请确保在开始安装之前,Run:ai 支持团队已提供租户名称和应用程序密钥。租户名称是用于访问 Run:ai Atlas 平台的专用控制平面 URL,应用程序密钥是安全地与平台通信所需的 API 密钥。
此外,集群 URL、证书(.crt 格式)和私钥(密钥文件)必须在安装开始之前由客户的 IT 部门生成。
注意
Run:ai 将无法使用自签名证书正常运行。
集群 URL 对应于由客户的企业 DNS 服务器创建和维护的 DNS A 记录。DNS A 记录的主机名应该是唯一的,并解析为 BCM K8s 集群中的一个节点。
集群 URL 必须附加 NGINX ingress 服务正在监听的端口。在 CLI 中运行以下命令以确定 ingress-nginx 端口映射
1root@basepod-head1:~# kubectl get svc -n ingress-nginx
2NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
3ingress-nginx-controller NodePort 10.150.30.30 10.130.122.9 80:30080/TCP, 443:3044 3/TCP 12d
4ingress-nginx-controller-admission ClusterIP 10.150.166.37 <none> 443/TCP 12d
在此示例中,端口 443 的映射是 30453。
此外,证书 CN 必须与集群 URL 的 DNS 记录匹配,以保护所有入站到集群的流量。
有关其他需要的先决条件,请参阅 Run:ai 安装集群先决条件。