介绍#

在版本 2.0 中添加。

Red Hat OpenShift#

Red Hat 和 NVIDIA 携手合作,通过交付针对 AI 工作负载优化的端到端企业平台,为每个企业释放 AI 的力量。这个集成平台提供一流的 AI 软件 NVIDIA AI Enterprise 套件,该套件针对行业领先的容器和 Kubernetes 平台 Red Hat OpenShift 进行了优化和认证。该平台在 NVIDIA 认证系统™(行业领先的加速服务器)上运行,加速了开发者构建 AI 和高性能数据分析的速度,使组织能够在他们已经投资的基础设施上扩展现代工作负载,并提供企业级的可管理性、安全性和可用性。此外,借助 Red Hat OpenShift,企业可以灵活地在裸金属或 VMware vSphere 虚拟化环境中进行部署。

_images/openshift-intro1.png

NVIDIA 和 Red Hat 联合 AI 就绪平台解决方案的优势包括

易于部署和扩展

企业可以放心地在 NVIDIA 认证系统上部署和扩展由 NVIDIA 和 Red Hat 认证的端到端 AI 解决方案。这包括在数据中心和边缘的裸金属或现有 VMware vSphere 上的 Red Hat OpenShift 上一致地部署 NVIDIA AI Enterprise 和数据分析软件的灵活性。Red Hat OpenShift 与 NVIDIA GPU 的集成,使用经过认证的 Kubernetes Operator 和容器化的 AI 软件,降低了部署风险,并实现了无缝扩展。

支持自助访问 AI 工具和基础设施

Red Hat OpenShift 上的 NVIDIA AI Enterprise 为数据科学家、ML 工程师和开发人员提供自助式、一致的、类似云的体验,他们可以灵活且可移植地使用容器化的 AI 工具和基础设施资源。这使他们能够在生产发布前快速构建、扩展、复制和共享模型。他们还可以访问开箱即用、值得信赖、经过测试的 AI 工具,以提高生产力并加快实现价值的时间。

通过集成的 MLOps 安全交付智能应用程序

将 OpenShift DevOps 和 GitOps 自动化功能扩展到整个 AI 生命周期,可以实现数据科学家、ML 工程师、软件开发人员和 IT 运营之间更好的协作。这使组织能够自动化和简化将模型集成到软件开发流程、生产发布、监控、再培训和重新部署的迭代过程,以持续提高预测准确性。

NVIDIA GPU Operator#

GPU Operator 使 DevOps 团队能够在集群级别管理与 Red Hat OpenShift 一起使用时的 GPU 生命周期。无需单独管理每个节点。当 GPU Operator 与 Red Hat OpenShift 一起使用时,基础设施团队可以从同一集群控制平面轻松管理 GPU 和 CPU 节点。GPU Operator 还允许客户在不可变的操作系统上运行 GPU 加速的应用程序。由于 GPU Operator 的构建方式使其能够检测新添加的 GPU 加速 Kubernetes 工作节点,然后自动安装运行 GPU 加速应用程序所需的所有软件组件,因此可以实现更快的节点配置。GPU Operator 是管理所有 Kubernetes 组件(GPU 设备插件、GPU 功能发现、GPU 监控工具、NVIDIA 运行时)的单一工具。重要的是要注意,GPU Operator 也安装 NVIDIA AI Enterprise Guest Driver。

_images/openshift-intro3.png

组件如下

  • GPU 功能发现,它根据 GPU 规格标记工作节点。这使客户能够更精细地选择其应用程序所需的 GPU 资源。

  • NVIDIA AI Enterprise Guest Driver

  • Kubernetes 设备插件,它向 Kubernetes 调度器通告 GPU

  • NVIDIA 容器工具包 - 允许用户构建和运行 GPU 加速的容器。该工具包包括一个容器运行时库和实用程序,用于自动配置容器以利用 NVIDIA GPU。

  • 数据中心 GPU 管理器 (DCGM) 监控 - 允许监控 Kubernetes 上的 GPU。

NVIDIA 网络 Operator#

NVIDIA 网络 Operator 利用 Kubernetes 自定义资源和 Operator 框架来实现快速网络、RDMA 和 GPUDirect。

_images/openshift-intro4.png

安装 NGC Catalog CLI(可选)#

要访问 NVIDIA AI Enterprise 软件,您必须首先下载并安装 NGC Catalog CLI。安装 NGC Catalog CLI 后,您需要启动命令窗口,然后运行命令以下载软件。建议将 NGC CLI 安装在可用于与 OpenShift 集群或 ESXi 主机交互的同一台机器上。

要安装 NGC Catalog CLI

  1. 进入 NVIDIA NGC 网站

  2. 在右上角,单击“Welcome”,然后从菜单中选择“Setup”。

  3. 在“Setup”页面中,单击“Install NGC CLI”下的“Downloads”。

  4. 在“CLI Install”页面中,根据您运行 NGC Catalog CLI 的平台,单击 Windows、Linux 或 MacOS 选项卡。

  5. 按照说明安装 CLI。

  6. 打开终端或命令提示符

  7. 通过输入 ngc--version 验证安装。输出应为 NGC Catalog CLI x.y.z,其中 x.y.z 表示版本。

  8. 您必须配置 NGC CLI 才能使用,以便可以运行命令。输入以下命令,然后在提示时包含您的 API 密钥

    $ ngc config set
    Enter API key [no-apikey]. Choices: [<VALID_APIKEY>, 'no-apikey']: (COPY/PASTE API KEY)
    
    Enter CLI output format type [ascii]. Choices: [ascii, csv, json]: ascii
    
    Enter org [no-org]. Choices: ['no-org']: no-org
    
    Enter team [no-team]. Choices: ['no-team']: no-team
    
    Enter ace [no-ace]. Choices: ['no-ace']: no-ace