需求#
Amazon EKS
要在 Amazon EKS 上部署 NVIDIA 云原生服务附加组件包,必须满足以下要求
- Kubernetes
本指南的本节重点介绍如何在 NVIDIA AI Enterprise 支持的 Amazon Web Services EKS 实例上部署附加组件包。有关如何部署和设置示例 EKS 实例的更多信息,请参阅下一节。
- GPU Operator
NVIDIA GPU Operator 应部署在 K8S 集群上,以使 GPU 可在集群内使用。
- 网络
端口
本指南假定集群可以通过端口 22(用于 SSH)和 443(用于入口)从外部访问。您的特定用例可能需要其他端口。
DNS/域名
K8S 集群需要完全限定域名 (FQDN),其中包含可在集群所在网络内外解析的通配符 DNS 条目。
除了集群本身的 DNS A 记录外,还必须为集群创建通配符 DNS A 记录。如果可能,两个条目都应存在反向查找 PTR 记录。通配符 FQDN 示例可能如下所示:
*.my-cluster.my-domain.com.
记下此 FQDN 以备后用。有关如何使用 Amazon Route 53 为集群配置域和 DNS 的示例,请参见附录。
注意
如果集群包含多个节点,则必须创建负载均衡器以平衡跨集群节点的请求。DNS 条目应指向负载均衡器,而不是集群节点。
- 存储
K8S 集群上必须提供存储类,以便配置云原生服务附加组件包以供使用。在本例中,将使用 Amazon EKS 上的 GP2 存储类。更多信息请参见下一节。
- NVIDIA AI Enterprise
由于 NVIDIA AI 工作流适用于 NVIDIA NGC 上的 NVIDIA AI Enterprise 软件客户,因此您必须有权访问以下内容才能拉取工作流所需的资源
NGC CLI
注意
符合条件的人员可以获得 NVIDIA AI Enterprise 试用许可证。
警告
访问 AI 工作流资源需要 NVIDIA AI Enterprise 许可。
注意
云服务提供商可能会通过按需 NVIDIA AI Enterprise 实例提供许可证。