概述#

NVIDIA 云原生服务附加包是一组用于 AI 工作流程的打包组件,旨在为在基于 Kubernetes 的基础设施上部署 AI 企业应用程序提供基本功能。

目前,以下 K8S 部署和集成变体可用

有关附加包支持的特定平台的更多信息,请参阅上面链接的文档中特定于平台的部分。

附加包中的打包组件包括身份验证、监控、报告和负载平衡的实现示例,这些示例可以按原样使用,也可以自定义并连接到您自己的环境。

这些示例遵循企业生产要求的一般准则,并作为与 NVIDIA 的 AI 框架兼容的标准,用于构建和部署 AI 微服务解决方案。

这些指南通常属于以下类别

  • 部署和编排

    • 符合 OCI 的容器镜像

    • 活跃度/就绪度/启动探针

    • 安全性和漏洞扫描/修补

  • 安全性

    • OIDC/OAuth2 用户身份验证

    • 外部密钥管理

    • 安全 API 端点

  • 网络

    • Ingress 控制

    • 代理 Sidecar

  • 日志记录和报告

    • 开放遥测协议 (OTLP) 监控

    • 应用程序容器内的 OTLP 支持

    • 日志聚合

AI 工作流程还包括特定于您的用例的 AI 框架,该框架作为符合 OCI 的基础容器镜像交付。下图说明了 NVIDIA AI 工作流程中包含的额外主观组件,以满足上述指南要求

_images/image1.png
Keycloak

标准 OIDC/OAuth2 提供程序,用于提供用户管理和身份验证。它是一个符合 OIDC/OAuth2 的开源身份提供程序,也可以与其他身份提供程序集成,使客户能够将其现有环境连接到工作流程中,而只需进行最少的额外开发。

Cert-Manager

Cert Manager 已部署,并设置了自定义证书颁发机构,用于生成/轮换应用程序和 AI 工作流程组件使用的 HTTPS 证书

Trust Manager

部署 Trust Manager 是为了将证书颁发机构公钥注入到 AI 工作流程或应用程序命名空间中

Ingress 控制器

HAProxy Ingress 控制器已与通配符 DNS 证书一起部署,以管理对集群内部署的服务的访问。

Prometheus

Prometheus 运算符和集中式 Prometheus 服务已部署在集群上,用于从应用程序服务中抓取和提取指标,并提供符合 OTLP 的监控系统和数据库。

Grafana

已部署 Grafana 运算符和集中式 Grafana 服务,可用于创建和托管仪表板,以可视化特定用例或 AI 工作流程的适当指标和监控数据。默认情况下,集中式 Grafana 服务连接到集中式 Prometheus 服务器。

Postgres 运算符

来自 CrunchyDB 的 Postgres 运算符已部署用于创建关系数据库。一个 Postgres 数据库已实例化,用于支持 Keycloak。

Elastic 运算符

用于 ElasticSearch、Kibana 和其他 Elastic 工具的 Elastic 运算符已部署在集群上。开箱即用未配置弹性服务,但如果需要,应用程序或 AI 工作流程可以使用它们。

注意

每个用户都有责任检查第三方软件的内容和适用许可,并确定它们是否适合预期用途。