概述#

NVIDIA 云原生服务附加包是一组用于 AI 工作流程的打包组件，旨在为在基于 Kubernetes 的基础设施上部署 AI 企业应用程序提供基本功能。

目前，以下 K8S 部署和集成变体可用

NVIDIA 云原生堆栈（上游 Kubernetes）

有关附加包支持的特定平台的更多信息，请参阅上面链接的文档中特定于平台的部分。

附加包中的打包组件包括身份验证、监控、报告和负载平衡的实现示例，这些示例可以按原样使用，也可以自定义并连接到您自己的环境。

这些示例遵循企业生产要求的一般准则，并作为与 NVIDIA 的 AI 框架兼容的标准，用于构建和部署 AI 微服务解决方案。

这些指南通常属于以下类别

部署和编排
- 符合 OCI 的容器镜像
- 活跃度/就绪度/启动探针
- 安全性和漏洞扫描/修补
安全性
- OIDC/OAuth2 用户身份验证
- 外部密钥管理
- 安全 API 端点
网络
- Ingress 控制
- 代理 Sidecar
日志记录和报告
- 开放遥测协议 (OTLP) 监控
- 应用程序容器内的 OTLP 支持
- 日志聚合

AI 工作流程还包括特定于您的用例的 AI 框架，该框架作为符合 OCI 的基础容器镜像交付。下图说明了 NVIDIA AI 工作流程中包含的额外主观组件，以满足上述指南要求

Keycloak: 标准 OIDC/OAuth2 提供程序，用于提供用户管理和身份验证。它是一个符合 OIDC/OAuth2 的开源身份提供程序，也可以与其他身份提供程序集成，使客户能够将其现有环境连接到工作流程中，而只需进行最少的额外开发。
Cert-Manager: Cert Manager 已部署，并设置了自定义证书颁发机构，用于生成/轮换应用程序和 AI 工作流程组件使用的 HTTPS 证书
Trust Manager: 部署 Trust Manager 是为了将证书颁发机构公钥注入到 AI 工作流程或应用程序命名空间中
Ingress 控制器: HAProxy Ingress 控制器已与通配符 DNS 证书一起部署，以管理对集群内部署的服务的访问。
Prometheus: Prometheus 运算符和集中式 Prometheus 服务已部署在集群上，用于从应用程序服务中抓取和提取指标，并提供符合 OTLP 的监控系统和数据库。
Grafana: 已部署 Grafana 运算符和集中式 Grafana 服务，可用于创建和托管仪表板，以可视化特定用例或 AI 工作流程的适当指标和监控数据。默认情况下，集中式 Grafana 服务连接到集中式 Prometheus 服务器。
Postgres 运算符: 来自 CrunchyDB 的 Postgres 运算符已部署用于创建关系数据库。一个 Postgres 数据库已实例化，用于支持 Keycloak。
Elastic 运算符: 用于 ElasticSearch、Kibana 和其他 Elastic 工具的 Elastic 运算符已部署在集群上。开箱即用未配置弹性服务，但如果需要，应用程序或 AI 工作流程可以使用它们。

注意

每个用户都有责任检查第三方软件的内容和适用许可，并确定它们是否适合预期用途。