发行说明#

v1.0.1#

破坏性变更#

  • 将 NIM 缓存自定义资源中的 spec.gpuSelectors 字段重命名为 spec.nodeSelector。该字段的用途保持不变——指定用于调度缓存作业的节点选择器标签。请参阅关于 NIM 缓存自定义资源定义

  • 将 Operator pod 指标从端口 8443 上的 HTTPS 协议更改为端口 8080 上的 HTTP 协议。

功能#

  • 在 NIM 缓存自定义资源中添加了 spec.env 字段,以支持环境变量。该字段的一个用途是为气隙网络和专用网络指定 HTTPS_PROXY 等变量。请参阅在气隙环境中缓存模型

  • 更新了 NIM 服务自定义资源中的 spec.expose.service.type 字段,以支持常见的服务类型,例如 LoadBalancer

  • 在 NIM 服务自定义资源中添加了 spec.runtimeClassName 字段,以支持在 NIM 服务部署上设置运行时类。

  • 从 Operator pod 中移除了 kube-rbac-proxy 容器。此更改提高了 Operator 的安全性。以前,当您配置 Prometheus 时,可能需要提供 TLS 证书。在此版本中,您不再需要提供证书。

  • 认证了 Operator 可用于 Red Hat OpenShift Container Platform。

v1.0.0#

功能#

  • NVIDIA NIM Operator 是新推出的。

已知问题#

  • NeMo Retriever Text Embedding NIM 和 NeMo Retriever Text Reranking NIM 的容器版本未公开提供,并导致镜像拉取回退错误。Operator 和文档是使用这些微服务的候选发布版本开发的。

  • Operator 不支持在多节点部署中配置 NIM 微服务。

  • 对于使用 vGPU 软件的 VMware vSphere with Tanzu 集群,要使用需要多个 GPU 的推理模型,NVIDIA A100 或 H100 GPU 必须通过 NVLink 或 NVLink Switch 连接。这些集群也不支持使用 L40S GPU 和 vGPU 软件的多 GPU 模型。

  • Operator 未在气隙网络环境中进行验证。

  • 示例 RAG 应用程序无法在 Red Hat OpenShift Container Platform 上部署。

  • Operator 对 go.uber.org/zap v1.26.0 具有传递依赖性。调查结果表明 Zap 包中存在跨站脚本 (XSS) 漏洞。