发行说明#
v1.0.1#
破坏性变更#
将 NIM 缓存自定义资源中的
spec.gpuSelectors
字段重命名为spec.nodeSelector
。该字段的用途保持不变——指定用于调度缓存作业的节点选择器标签。请参阅关于 NIM 缓存自定义资源定义。将 Operator pod 指标从端口
8443
上的 HTTPS 协议更改为端口8080
上的 HTTP 协议。
功能#
在 NIM 缓存自定义资源中添加了
spec.env
字段,以支持环境变量。该字段的一个用途是为气隙网络和专用网络指定HTTPS_PROXY
等变量。请参阅在气隙环境中缓存模型。更新了 NIM 服务自定义资源中的
spec.expose.service.type
字段,以支持常见的服务类型,例如LoadBalancer
。在 NIM 服务自定义资源中添加了
spec.runtimeClassName
字段,以支持在 NIM 服务部署上设置运行时类。从 Operator pod 中移除了
kube-rbac-proxy
容器。此更改提高了 Operator 的安全性。以前,当您配置 Prometheus 时,可能需要提供 TLS 证书。在此版本中,您不再需要提供证书。认证了 Operator 可用于 Red Hat OpenShift Container Platform。
v1.0.0#
功能#
NVIDIA NIM Operator 是新推出的。
已知问题#
NeMo Retriever Text Embedding NIM 和 NeMo Retriever Text Reranking NIM 的容器版本未公开提供,并导致镜像拉取回退错误。Operator 和文档是使用这些微服务的候选发布版本开发的。
Operator 不支持在多节点部署中配置 NIM 微服务。
对于使用 vGPU 软件的 VMware vSphere with Tanzu 集群,要使用需要多个 GPU 的推理模型,NVIDIA A100 或 H100 GPU 必须通过 NVLink 或 NVLink Switch 连接。这些集群也不支持使用 L40S GPU 和 vGPU 软件的多 GPU 模型。
Operator 未在气隙网络环境中进行验证。
示例 RAG 应用程序无法在 Red Hat OpenShift Container Platform 上部署。
Operator 对 go.uber.org/zap v1.26.0 具有传递依赖性。调查结果表明 Zap 包中存在跨站脚本 (XSS) 漏洞。