概述#
在版本 3.0 中添加。
本文档深入介绍了如何在 Red Hat Enterprise Linux (RHEL) 上通过 KVM 虚拟化部署 NVIDIA AI Enterprise,并作为技术资源,帮助理解系统先决条件、安装和配置。
- 本指南中的章节按照以下安装顺序编写
先决条件
在主机服务器上安装 Red Hat Enterprise Linux
初始主机配置
NVIDIA AI Enterprise 软件
NVIDIA 许可系统
为您的 NVIDIA AI Enterprise 系统启用 KVM 虚拟化
在 KVM 上使用 NVIDIA AI Enterprise 为 RHEL 创建虚拟机
设置 NVIDIA vGPU 设备
安装 Podman 和 NVIDIA 容器工具包
安装 AI 和数据科学应用程序及框架
高级 GPU 配置(可选)
高级框架配置
验证
KVM 功能概述#
基于内核的虚拟机 (KVM) 是一种开源虚拟化技术,作为可加载内核模块与 Linux 内核一起分发。KVM 内核模块实现了一种 1 类(裸机)虚拟机监控程序,允许主机运行多个隔离的虚拟机 (VM)。由于 KVM 模块包含在每个 Linux 内核版本中,因此它可以立即从每个新功能、修复和改进中受益,而无需额外的工程设计。
KVM 中的每个虚拟机都作为常规 Linux 进程实现,由标准 Linux 调度程序调度,具有专用的虚拟硬件,如网卡、图形适配器、CPU、内存、磁盘以及利用 NVIDIA 虚拟 GPU (vGPU) 技术的能力。
在 RHEL 上使用 NVIDIA AI Enterprise 实施 KVM,使任何企业(包括最初可能缺乏 AI expertise 的组织)都能够扩展 KVM 的功能并利用 AI 的强大功能。KVM 允许用户在访客之间交换资源、共享通用库、优化系统性能以及部署 AI 框架,从而简化 AI 软件的构建、共享和部署。
KVM 通过安全增强型 Linux (SELinux) 和安全虚拟化 (sVirt) 的双重组合来确保安全,从而增强 VM 的安全性和隔离性。它利用 Linux 支持的任何类型的存储,并且还支持共享文件系统,以便 VM 镜像可以由多个主机共享。磁盘镜像支持精简配置,按需分配存储,而不是预先全部分配。KVM 继承了 Linux 的性能,如果访客机和请求数量增加,则可以扩展以匹配需求负载。一旦 KVM 与 NVIDIA 软件套件结合使用,组织将可以访问易于使用的工具,用于 AI 工作流程的每个阶段,从数据准备到训练、推理和大规模部署。
提示
本指南将经常引用Red Hat 的 KVM 虚拟化指南。如果本文档的范围未涵盖任何主题,请参阅本指南。