概述#
NVIDIA 云原生服务附加包是一组用于 AI 工作流程的打包组件,旨在为在基于 Kubernetes 的基础设施上部署 AI 企业应用程序提供基本功能。
目前,以下 K8S 部署和集成变体可用
有关附加包支持的特定平台的更多信息,请参阅上面链接的文档中特定于平台的部分。
附加包中的打包组件包括身份验证、监控、报告和负载平衡的实现示例,这些示例可以按原样使用,也可以自定义并连接到您自己的环境。
这些示例遵循企业生产要求的一般准则,并作为与 NVIDIA 的 AI 框架兼容的标准,用于构建和部署 AI 微服务解决方案。
这些指南通常属于以下类别
部署和编排
符合 OCI 的容器镜像
活跃度/就绪度/启动探针
安全性和漏洞扫描/修补
安全性
OIDC/OAuth2 用户身份验证
外部密钥管理
安全 API 端点
网络
Ingress 控制
代理 Sidecar
日志记录和报告
开放遥测协议 (OTLP) 监控
应用程序容器内的 OTLP 支持
日志聚合
AI 工作流程还包括特定于您的用例的 AI 框架,该框架作为符合 OCI 的基础容器镜像交付。下图说明了 NVIDIA AI 工作流程中包含的额外主观组件,以满足上述指南要求

- Keycloak
标准 OIDC/OAuth2 提供程序,用于提供用户管理和身份验证。它是一个符合 OIDC/OAuth2 的开源身份提供程序,也可以与其他身份提供程序集成,使客户能够将其现有环境连接到工作流程中,而只需进行最少的额外开发。
- Cert-Manager
Cert Manager 已部署,并设置了自定义证书颁发机构,用于生成/轮换应用程序和 AI 工作流程组件使用的 HTTPS 证书
- Trust Manager
部署 Trust Manager 是为了将证书颁发机构公钥注入到 AI 工作流程或应用程序命名空间中
- Ingress 控制器
HAProxy Ingress 控制器已与通配符 DNS 证书一起部署,以管理对集群内部署的服务的访问。
- Prometheus
Prometheus 运算符和集中式 Prometheus 服务已部署在集群上,用于从应用程序服务中抓取和提取指标,并提供符合 OTLP 的监控系统和数据库。
- Grafana
已部署 Grafana 运算符和集中式 Grafana 服务,可用于创建和托管仪表板,以可视化特定用例或 AI 工作流程的适当指标和监控数据。默认情况下,集中式 Grafana 服务连接到集中式 Prometheus 服务器。
- Postgres 运算符
来自 CrunchyDB 的 Postgres 运算符已部署用于创建关系数据库。一个 Postgres 数据库已实例化,用于支持 Keycloak。
- Elastic 运算符
用于 ElasticSearch、Kibana 和其他 Elastic 工具的 Elastic 运算符已部署在集群上。开箱即用未配置弹性服务,但如果需要,应用程序或 AI 工作流程可以使用它们。
注意
每个用户都有责任检查第三方软件的内容和适用许可,并确定它们是否适合预期用途。