NVIDIA AI Enterprise#

关于 NVIDIA AI Enterprise 和支持的平台#

NVIDIA AI Enterprise 是一套端到端的云原生 AI 和数据分析软件,经过 NVIDIA 优化、认证和支持,并与 NVIDIA 认证系统配合使用。

将 GPU Operator 与 NVIDIA AI Enterprise 一起部署提供两种安装选项。

vGPU 访客驱动程序

数据中心驱动程序

使用预构建的 vGPU 驱动程序镜像,该镜像仅供 NVIDIA AI Enterprise 客户使用。

它配置为使用NVIDIA 许可证系统 (NLS)。在虚拟化平台上安装必须使用 vGPU 驱动程序安装。

安装通过从 NVIDIA NGC 下载 Bash 脚本并运行该脚本来执行。

使用公开可用的 GPU Operator Helm chart 和公开可用的 GPU 驱动程序容器。

您必须确定 NVIDIA AI Enterprise 版本的受支持驱动程序分支,例如 550。

安装通过运行 helm 命令来执行。

有关支持的平台、虚拟机监控程序和操作系统的信息,请参阅 NVIDIA AI Enterprise 文档中的产品支持矩阵

有关将 vGPU 与 Red Hat OpenShift 结合使用的信息,请参阅NVIDIA AI Enterprise 与 OpenShift

使用 vGPU 驱动程序安装 GPU Operator#

先决条件#

  • 已为脚本将在其上安装 vGPU 访客驱动程序的客户端生成客户端配置令牌。有关更多信息,请参阅NVIDIA 许可证系统用户指南中的生成客户端配置令牌

  • 用于创建镜像拉取密钥的 NGC CLI API 密钥。该密钥用于从 NVIDIA NGC 拉取预构建的 vGPU 驱动程序镜像。有关更多信息,请参阅NVIDIA NGC 私有注册表用户指南中的生成您的 NGC API 密钥

步骤#

  1. 将 NGC CLI API 密钥和您的电子邮件地址导出为环境变量

    $ export NGC_API_KEY="M2Vub3QxYmgyZ..."
    $ export NGC_USER_EMAIL="user@example.com"
    
  2. 转到 NVIDIA NGC 上的NVIDIA GPU Operator - 部署安装程序脚本网页。

    单击文件浏览器选项卡,确定您的 NVIDIA AI Enterprise 版本,单击操作按钮,然后选择下载文件

    将下载的脚本复制到与客户端配置令牌相同的目录。

  3. 将您下载的客户端配置令牌重命名为 client_configuration_token.tok。最初,客户端配置令牌的命名模式为:client_configuration_token_mm-dd-yyyy-hh-mm-ss.tok

  4. 从包含下载的脚本和客户端配置令牌的目录中,运行脚本

    $ bash gpu-operator-nvaie.sh install
    

更新 NLS 客户端许可证令牌#

如果需要更新 NLS 客户端许可证令牌,请使用以下步骤

创建一个空的 vGPU 许可证配置文件

$ sudo touch gridd.conf

生成并下载新的 NLS 客户端许可证令牌。有关说明,请参阅NLS 用户指南的第 4.6 节。

将您下载的 NLS 客户端许可证令牌重命名为 client_configuration_token.tok

gpu-operator 命名空间中创建一个新的 licensing-config-new ConfigMap 对象(确保 configmap 的名称在 Kubernetes 集群中尚未使用)。vGPU 许可证配置文件和 NLS 客户端许可证令牌都将添加到此 ConfigMap

$ kubectl create configmap licensing-config-new \
    -n gpu-operator --from-file=gridd.conf --from-file=<path>/client_configuration_token.tok

使用以下命令编辑 clusterpolicies

$ kubectl edit clusterpolicies.nvidia.com

转到 driver 部分并替换以下参数

licensingConfig:
    configMapName: licensing-config

licensingConfig:
    configMapName: licensing-config-new

写入并退出 kubectl 编辑会话(如果使用 vi 实用程序,可以使用 :qw)

GPU Operator 将使用此新的许可信息顺序地重新部署所有驱动程序 pod。

使用数据中心驱动程序安装 GPU Operator#

此安装方法适用于裸机集群或任何不使用虚拟化的集群。

您必须安装与您的 NVIDIA AI Enterprise 版本的受支持驱动程序分支匹配的驱动程序。以下列表总结了每个版本的驱动程序分支。

  • v5.x:550 分支

  • v4.x:535 分支

  • v3.x:525 分支

  • v1.x:470 分支

对于较新的版本,您可以通过执行以下步骤确认受支持的驱动程序分支

  1. 请参阅 NVIDIA AI Enterprise 的发行文档,并访问您的版本的文档。

  2. 在发行说明中,确定受支持的 NVIDIA 数据中心 GPU 驱动程序分支。

    例如,5.1 版本的支持的硬件和软件表明该版本使用 550.90.07 版本的 Linux 驱动程序。

  3. 请参阅GPU Operator 组件矩阵,以确定在本例中使用相同驱动程序分支 550 的推荐驱动程序版本。

在确定正确的驱动程序版本后,请参阅安装 NVIDIA GPU Operator,以使用 Helm 安装 Operator。指定 --version=<supported-version> 参数来安装 NVIDIA AI Enterprise 版本的受支持 Operator 版本。