创建您的首个 NVIDIA AI Enterprise 系统#

在版本 2.0 中添加。

安装操作系统#

安装 Ubuntu Server 20.04 LTS 或 22.04 LTS#

NVIDIA AI Enterprise 在 Ubuntu 20.04 LTS 或 22.04 LTS 操作系统上受支持。请务必注意，Ubuntu ISO 类型有两种：桌面版和服务器实时版。桌面版包含图形用户界面 (GUI)，而服务器实时版仅通过命令行操作。本文档使用 Ubuntu 服务器实时版 20.04（amd64 架构），但值得注意的是，如果需要，以后可以安装 GUI。

将 Ubuntu ISO 附加到您的主机服务器的虚拟介质。
选择您偏好的语言，然后按 Enter 键。
更新安装程序是可选的。本指南使用 Ubuntu 20.04.1 LTS 创建，某些选项在较新版本的安装程序上可能会更改。
配置键盘布局，然后按 Enter 键。
在此屏幕上，选择您的网络连接类型并对其进行修改以适应您的内部要求。本指南使用 DHCP 进行配置。
如果您有代理地址，请在此屏幕中输入并按完成。
如果您有 Ubuntu 的备用镜像地址，请在此处输入。否则，如果有默认地址，请使用它并按完成。
格式化整个磁盘。然后，选择一个磁盘进行安装。
查看文件系统摘要，如果满意，请选择完成。在弹出窗口中选择继续。
使用用户帐户、名称和密码配置系统。
选择安装 OpenSSH 服务器，然后选择完成。
选择您的环境中内部使用可能需要的任何服务器 snaps，然后选择完成。等待系统完成安装。
在 Ubuntu 操作系统屏幕上选择立即重启。
断开 Ubuntu ISO 与您的主机服务器的虚拟介质的连接。

安装 Red Hat Enterprise Linux 8.4#

将 Red Hat Enterprise Linux (RHEL) ISO 附加到您的主机服务器的虚拟介质。
选择您偏好的语言并点击继续。
接下来，在本地化列下选择 时间和日期。根据需要设置时间和日期，然后单击完成。
接下来，在软件列下选择 软件选择。选择 服务器，然后单击完成。
接下来，在系统菜单下选择 安装目标。选择 VMware 虚拟磁盘，然后单击完成。
接下来，在系统列下选择 网络和主机名。如果您的系统已连接到网络，则它将尝试从 DHCP 服务器获取 IP，否则可以手动配置。完成后单击“完成”。
在用户设置列下选择 Root 密码。创建密码并单击“完成”。
单击 开始安装 以开始安装。
安装将开始，如下所示。
安装完成后，单击 重启系统 进行重启。
断开 Ubuntu ISO 与您的主机服务器的虚拟介质的连接。

安装 NVIDIA 驱动程序#

NVIDIA 驱动程序是安装在操作系统上的软件驱动程序，负责与 NVIDIA GPU 通信，以启用加速 AI 或 HPC 工作负载。现在您已经安装了 Linux，NVIDIA AI Enterprise 驱动程序将完全启用 GPU 操作。在继续 NVIDIA 驱动程序安装之前，请确认 Nouveau 已禁用。有关确认此操作的说明，请参阅 Ubuntu 部分和 RHEL 部分。

数据中心驱动程序安装#

此驱动程序旨在用于裸金属设置或在 VM 中使用 GPU 直通模式，以加速 AI 或 HPC 工作负载。此驱动程序不适用于 vGPU 设置。

安装适用于 Linux 的 NVIDIA AI Enterprise 软件驱动程序需要

编译器工具链

内核头文件

注意

如果您喜欢使用 Debian 软件包，请参阅 Debian 说明。

要为数据中心中运行的计算和 AI 工作负载启用 NVIDIA GPU 加速

从此位置下载 NVIDIA GPU 数据中心驱动程序。
选择 数据中心/Tesla、GPU 系列 和 Linux 64 位 以下载 .run 文件。

注意

要使用 .deb 驱动程序文件，请选择 数据中心/Tesla、GPU 系列，然后选择 Linux 64 位 22.04。
登录系统并检查更新。
sudo apt-get update
在终端中安装 GCC 编译器和 make 工具。
sudo apt-get install build-essential
将 NVIDIA AI Enterprise Linux 驱动程序包（例如，NVIDIA-Linux-x86_64-550.90.12.run）复制到您要安装驱动程序的主机。
导航到包含 NVIDIA 驱动程序 .run 文件的目录。然后，使用 chmod 命令向 NVIDIA 驱动程序文件添加可执行权限。
sudo chmod +x NVIDIA-Linux-x86_64-xxx.xx.xx.run
从控制台 shell 中，以 root 用户身份运行驱动程序安装程序，并接受默认设置。
sudo sh ./NVIDIA-Linux-x86_64-xxx.xx.xx.run
重启系统。
sudo reboot
系统重启后，确认您可以在 nvidia-smi 的输出中看到您的 NVIDIA vGPU 设备。
nvidia-smi