要求#

NVIDIA 云原生堆栈

要部署 NVIDIA 云原生服务附加包,必须满足以下要求

  • Kubernetes

    本指南的这一部分重点介绍在 NVIDIA AI 企业版支持的云原生堆栈实例上部署附加包。有关如何部署和设置示例 NVIDIA 云原生堆栈实例的更多信息,请参阅下一节

    注意

    使用上游 Kubernetes 的 NVIDIA 云原生堆栈部署仅应用于评估和开发目的。它并非为生产用途而设计。

  • GPU 运算符

    应该在 K8S 集群上部署 NVIDIA GPU 运算符,以使 GPU 可在集群内使用。NVIDIA 云原生堆栈将在安装过程中部署和设置 GPU 运算符。

  • 网络
    • 端口

      本指南假设集群将通过端口 443 对外访问以进行入口。您的特定用例可能需要其他端口。

    • DNS/域名

      K8S 集群需要完全限定域名 (FQDN),其中包含可在集群所在网络内外解析的通配符 DNS 条目。

      除了集群的 DNS A 记录外,还必须为集群创建通配符 DNS A 记录。如果可能,反向查找 PTR 记录也应同时存在于这两个条目中。通配符 FQDN 示例可能如下所示:*.my-cluster.my-domain.com. 记下此 FQDN 以供日后使用。

      有关如何使用 Amazon Route 53 为集群配置域和 DNS 的示例,请参阅附录

      注意

      如果 DNS 条目仅在本地网络(例如企业域内)可解析,并且不能被集群直接解析,则可以在集群上的 /etc/hosts 中手动创建反向查找条目,使集群 IP 指向各种所需的入口主机名作为一种变通方法。下面提供了一个 hosts 文件示例。

      127.0.0.1 system.domain.com
      127.0.0.1 auth.system.domain.com
      127.0.0.1 dashboards.system.domain.com
      

      根据工作流程,可能需要更多入口规则。

      注意

      如果集群包含多个节点,则必须创建负载均衡器以平衡跨集群节点的请求。DNS 条目应指向负载均衡器,而不是集群节点。

  • 存储

    K8S 集群上必须提供存储类,以便配置云原生服务附加包使用。在本示例中,将使用 Local Path Provisioner。说明在下一节中提供。

  • NVIDIA AI 企业版

    由于 NVIDIA AI 工作流在 NVIDIA NGC 上为 NVIDIA AI 企业版 软件客户提供,因此您必须有权访问以下内容才能拉取工作流所需的资源

    注意

    符合条件的用户可以获得 NVIDIA AI 企业版试用许可证。

    警告

    访问 AI 工作流资源需要 NVIDIA AI 企业版许可。

    注意

    云服务提供商可能会通过按需 NVIDIA AI 企业版实例包含许可证。