在 Red Hat OpenShift 上安装 NVIDIA NIM Operator#
先决条件#
Red Hat OpenShift Container Platform 集群和 cluster-admin 角色。有关支持的操作系统和 Kubernetes 平台的信息,请参阅平台支持。
Operator SDK 的安装以及路径中的
operator-sdk
命令。有关更多信息,请参阅 Operator SDK 文档中的 安装。OpenShift CLI。有关更多信息,请参阅 OpenShift 文档中的 安装 OpenShift CLI。
一个或多个节点上的 NVIDIA A100 80 GB、H100 或 L40S GPU。有关型号以及所需的 GPU 型号和 GPU 数量的信息,请参阅平台支持。对于超出单个 GPU 内存容量的大型模型,您需要添加更多 GPU。当您部署管道时,您可以为一个工作负载指定多个 GPU。
NGC CLI API 密钥。Pod 使用 API 密钥作为镜像拉取密钥,以下载来自 NVIDIA NGC 的容器镜像和模型。有关更多信息,请参阅NVIDIA NGC 用户指南中的 生成您的 NGC API 密钥。
NVIDIA AI Enterprise 产品的有效订阅或成为 NVIDIA 开发者计划成员。对 NVIDIA NIM 微服务的容器和模型的访问受到限制。
安装 GPU Operator#
使用 NVIDIA GPU Operator 在 Kubernetes 节点上安装、配置和管理 NVIDIA GPU 驱动程序和 NVIDIA 容器运行时。
安装 Node Feature Discovery Operator。
有关安装信息,请参阅 OpenShift Container Platform 文档中的 Node Feature Discovery Operator。
有关创建节点功能发现实例的信息,请参阅 在 OpenShift 上安装 Node Feature Discovery Operator。
安装 GPU Operator。
有关安装 Operator 和创建集群策略实例的信息,请参阅 在 OpenShift 上安装 NVIDIA GPU Operator。
安装 NIM Operator#
创建 Operator 命名空间
$ oc create namespace nvidia-nim-operator
添加 Operator 用于从 NGC 拉取容器和模型的 Docker 注册表密钥
$ oc create secret -n nvidia-nim-operator docker-registry ngc-secret \ --docker-server=nvcr.io \ --docker-username='$oauthtoken' \ --docker-password=<ngc-api-key>
安装 Operator
$ operator-sdk run bundle ghcr.io/nvidia/k8s-nim-operator:bundle-latest-main --namespace nvidia-nim-operator
可选:确认控制器 Pod 正在运行
$ oc get pods -n nvidia-nim-operator
示例输出
NAME READY STATUS RESTARTS AGE ec60a4439c710b89fc2582f5384382b4241f9aee62bb3182b8d128e69d4jqfm 0/1 Completed 0 74m ghcr-io-nvidia-k8s-nim-operator-bundle-latest-main 1/1 Running 0 75m k8s-nim-operator-77bf775c88-bscjg 2/2 Running 0 74m
后续步骤#
请参阅缓存模型以下载和缓存推理和嵌入模型。示例命令显示
kubectl
。您可以使用oc
或kubectl
命令。您可以通过运行
operator-sdk cleanup -n nvidia-nim-operator nim-operator-certified
卸载 Operator。