安装 NVIDIA NIM Operator#

先决条件#

  • Kubernetes 集群和 cluster-admin 角色。有关支持的操作系统和 Kubernetes 平台的信息,请参阅 平台支持

  • 一个或多个节点上的 NVIDIA A100 80 GB、H100 或 L40S GPU。有关模型和所需的 GPU 型号和 GPU 数量的信息,请参阅 平台支持。对于超过单个 GPU 内存容量的大型模型,您需要添加更多 GPU。当您部署管道时,可以为一个工作负载指定多个 GPU。

  • NVIDIA AI Enterprise 产品的有效订阅,或成为 NVIDIA 开发者计划成员。访问 NVIDIA NIM 微服务的容器和模型受到限制。

安装 GPU Operator#

使用 NVIDIA GPU Operator 在 Kubernetes 节点上安装、配置和管理 NVIDIA GPU 驱动程序和 NVIDIA 容器运行时。

  1. 添加 NVIDIA 的 Helm 仓库

    $ helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
       && helm repo update
    
  2. 安装 Operator

    $ helm install --wait --generate-name \
       -n gpu-operator --create-namespace \
       nvidia/gpu-operator
    

有关更多信息或调整配置,请参阅 NVIDIA GPU Operator 文档中的 安装 NVIDIA GPU Operator

安装 NIM Operator#

  1. 创建 Operator 命名空间

    $ kubectl create namespace nim-operator
    
  2. 安装 Operator

    $ helm install nim-operator nvidia/k8s-nim-operator -n nim-operator --version=v1.0.1
    
  3. 可选:确认控制器 Pod 正在运行

    $ kubectl get pods -n nim-operator
    

    示例输出

    NAME                                            READY   STATUS    RESTARTS      AGE
    nim-operator-k8s-nim-operator-6b546f57d5-g4zgg  2/2     Running     0           35h
    

下一步#

  • 请参阅 缓存模型以下载和缓存推理和嵌入模型。