在 Red Hat OpenShift 上安装 NVIDIA NIM Operator#

先决条件#

  • Red Hat OpenShift Container Platform 集群和 cluster-admin 角色。有关支持的操作系统和 Kubernetes 平台的信息,请参阅平台支持

  • Operator SDK 的安装以及路径中的 operator-sdk 命令。有关更多信息,请参阅 Operator SDK 文档中的 安装

  • OpenShift CLI。有关更多信息,请参阅 OpenShift 文档中的 安装 OpenShift CLI

  • 一个或多个节点上的 NVIDIA A100 80 GB、H100 或 L40S GPU。有关型号以及所需的 GPU 型号和 GPU 数量的信息,请参阅平台支持。对于超出单个 GPU 内存容量的大型模型,您需要添加更多 GPU。当您部署管道时,您可以为一个工作负载指定多个 GPU。

  • NGC CLI API 密钥。Pod 使用 API 密钥作为镜像拉取密钥,以下载来自 NVIDIA NGC 的容器镜像和模型。有关更多信息,请参阅NVIDIA NGC 用户指南中的 生成您的 NGC API 密钥

  • NVIDIA AI Enterprise 产品的有效订阅或成为 NVIDIA 开发者计划成员。对 NVIDIA NIM 微服务的容器和模型的访问受到限制。

安装 GPU Operator#

使用 NVIDIA GPU Operator 在 Kubernetes 节点上安装、配置和管理 NVIDIA GPU 驱动程序和 NVIDIA 容器运行时。

  1. 安装 Node Feature Discovery Operator。

  2. 安装 GPU Operator。

    有关安装 Operator 和创建集群策略实例的信息,请参阅 在 OpenShift 上安装 NVIDIA GPU Operator

安装 NIM Operator#

  1. 创建 Operator 命名空间

    $ oc create namespace nvidia-nim-operator
    
  2. 添加 Operator 用于从 NGC 拉取容器和模型的 Docker 注册表密钥

    $ oc create secret -n nvidia-nim-operator docker-registry ngc-secret \
        --docker-server=nvcr.io \
        --docker-username='$oauthtoken' \
        --docker-password=<ngc-api-key>
    
  3. 安装 Operator

    $ operator-sdk run bundle ghcr.io/nvidia/k8s-nim-operator:bundle-latest-main --namespace nvidia-nim-operator
    
  4. 可选:确认控制器 Pod 正在运行

    $ oc get pods -n nvidia-nim-operator
    

    示例输出

    NAME                                                              READY   STATUS      RESTARTS   AGE
    ec60a4439c710b89fc2582f5384382b4241f9aee62bb3182b8d128e69d4jqfm   0/1     Completed   0          74m
    ghcr-io-nvidia-k8s-nim-operator-bundle-latest-main                1/1     Running     0          75m
    k8s-nim-operator-77bf775c88-bscjg                                 2/2     Running     0          74m
    

后续步骤#

  • 请参阅缓存模型以下载和缓存推理和嵌入模型。示例命令显示 kubectl。您可以使用 ockubectl 命令。

  • 您可以通过运行 operator-sdk cleanup -n nvidia-nim-operator nim-operator-certified 卸载 Operator。