OpenShift 上 NVIDIA GPU Operator 简介#
Kubernetes 是一个开源平台,用于自动化容器化应用程序的部署、扩展和管理。
红帽 OpenShift 容器平台是由红帽开发和支持的、以安全为中心的企业级强化 Kubernetes 平台,用于大规模部署和管理 Kubernetes 集群。红帽 OpenShift 容器平台包含对 Kubernetes 的增强功能,使用户可以轻松配置和使用 GPU 资源来加速深度学习等工作负载。
NVIDIA GPU Operator 使用 Kubernetes 中的 Operator 框架来自动化管理配置 GPU 所需的所有 NVIDIA 软件组件。这些组件包括 NVIDIA 驱动程序(以启用 CUDA)、用于 GPU 的 Kubernetes 设备插件、NVIDIA Container Toolkit、使用 GFD 的自动节点标记、基于 DCGM 的监控等。
有关 NVIDIA 支持授权需求的具体指导,如果您拥有 NVIDIA AI Enterprise 授权,请参阅 NVIDIA 企业支持和服务用户指南。否则,请参阅红帽知识库文章 从 NVIDIA 获取支持。