在 VMware vSphere With Tanzu 上安装 NVIDIA NIM Operator#

先决条件#

TKG 集群和 cluster-admin 角色。有关支持的操作系统和 Kubernetes 平台的信息，请参阅平台支持。
支持网络访问的持久卷配置器，例如 vSAN。
VMware vSphere 的 Kubernetes CLI 工具。有关更多信息，请参阅 VMware vSphere 文档中的下载并安装 vSphere 的 Kubernetes CLI 工具。
一个或多个节点上的 NVIDIA A100 80 GB、H100 或 L40S GPU。有关型号和所需的 GPU 型号和 GPU 数量的信息，请参阅平台支持。对于超出单个 GPU 内存容量的大型模型，您需要添加更多 GPU。部署管线时，您可以为工作负载指定多个 GPU。
NGC CLI API 密钥。Pod 使用 API 密钥作为镜像拉取密钥，从 NVIDIA NGC 下载容器镜像和模型。有关更多信息，请参阅NVIDIA NGC 用户指南中的生成您的 NGC API 密钥。
有效的 NVIDIA AI Enterprise 产品订阅或成为 NVIDIA 开发者计划成员。对 NVIDIA NIM 微服务的容器和模型的访问受到限制。

安装 GPU Operator#

使用 NVIDIA GPU Operator 在 Kubernetes 节点上安装、配置和管理 NVIDIA GPU 驱动程序和 NVIDIA 容器运行时。

创建并标记 Operator 命名空间，以防止准入控制器对使用服务帐户创建的 pod 强制执行 pod 安全策略

$ kubectl create namespace gpu-operator
$ kubectl label --overwrite ns gpu-operator pod-security.kubernetes.io/warn=privileged pod-security.kubernetes.io/enforce=privileged

添加 NVIDIA 的 Helm 仓库

$ helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
   && helm repo update

安装 Operator

$ helm install --wait --generate-name \
   -n gpu-operator \
   nvidia/gpu-operator

有关更多信息或调整配置，请参阅 NVIDIA GPU Operator 文档中的安装 NVIDIA GPU Operator。

安装 NIM Operator#

创建 Operator 命名空间

$ kubectl create namespace nim-operator

安装 Operator

$ helm install nim-operator nvidia/k8s-nim-operator -n nim-operator --version=v1.0.1

可选：确认控制器 pod 正在运行

$ kubectl get pods -n nim-operator

示例输出

NAME                                            READY   STATUS    RESTARTS      AGE
nim-operator-k8s-nim-operator-6b546f57d5-g4zgg  2/2     Running     0           35h

下一步#

请参阅缓存模型以下载和缓存推理和嵌入模型。