创建您的首个 NVIDIA AI Enterprise 系统#

在版本 2.0 中添加。

安装操作系统#

安装 Ubuntu Server 20.04 LTS 或 22.04 LTS#

NVIDIA AI Enterprise 在 Ubuntu 20.04 LTS 或 22.04 LTS 操作系统上受支持。请务必注意,Ubuntu ISO 类型有两种:桌面版和服务器实时版。桌面版包含图形用户界面 (GUI),而服务器实时版仅通过命令行操作。本文档使用 Ubuntu 服务器实时版 20.04(amd64 架构),但值得注意的是,如果需要,以后可以安装 GUI。

  1. 将 Ubuntu ISO 附加到您的主机服务器的虚拟介质。

  2. 选择您偏好的语言,然后按 Enter 键。

    _images/dg-first-vm-14.png
  3. 更新安装程序是可选的。本指南使用 Ubuntu 20.04.1 LTS 创建,某些选项在较新版本的安装程序上可能会更改。

    _images/dg-first-vm-15.png
  4. 配置键盘布局,然后按 Enter 键。

    _images/dg-first-vm-16.png
  5. 在此屏幕上,选择您的网络连接类型并对其进行修改以适应您的内部要求。本指南使用 DHCP 进行配置。

    _images/dg-first-vm-17.png
  6. 如果您有代理地址,请在此屏幕中输入并按完成

    _images/dg-first-vm-18.png
  7. 如果您有 Ubuntu 的备用镜像地址,请在此处输入。否则,如果有默认地址,请使用它并按完成

    _images/dg-first-vm-19.png
  8. 格式化整个磁盘。然后,选择一个磁盘进行安装。

    _images/dg-first-vm-20.png
  9. 查看文件系统摘要,如果满意,请选择完成。在弹出窗口中选择继续

    _images/dg-first-vm-21.png
  10. 使用用户帐户、名称和密码配置系统。

    _images/dg-first-vm-22.png
  11. 选择安装 OpenSSH 服务器,然后选择完成

    _images/dg-first-vm-23.png
  12. 选择您的环境中内部使用可能需要的任何服务器 snaps,然后选择完成。等待系统完成安装。

    _images/dg-first-vm-24.png
  13. 在 Ubuntu 操作系统屏幕上选择立即重启

    _images/dg-first-vm-25.png
  14. 断开 Ubuntu ISO 与您的主机服务器的虚拟介质的连接。

安装 Red Hat Enterprise Linux 8.4#

  1. 将 Red Hat Enterprise Linux (RHEL) ISO 附加到您的主机服务器的虚拟介质。

  2. 选择您偏好的语言并点击继续

    _images/rhel-keyboard.png
  3. 接下来,在本地化列下选择 时间和日期。根据需要设置时间和日期,然后单击完成

    _images/rhel-date-and-time.png
  4. 接下来,在软件列下选择 软件选择。选择 服务器,然后单击完成

    _images/rhel-software-selection.png
  5. 接下来,在系统菜单下选择 安装目标。选择 VMware 虚拟磁盘,然后单击完成

    _images/rhel-installation-destination.png
  6. 接下来,在系统列下选择 网络和主机名。如果您的系统已连接到网络,则它将尝试从 DHCP 服务器获取 IP,否则可以手动配置。完成后单击“完成”。

    _images/rhel-network-host-name.png
  7. 在用户设置列下选择 Root 密码。创建密码并单击“完成”。

    _images/rhel-root-password.png
  8. 单击 开始安装 以开始安装。

    _images/rhel-begin-install.png
  9. 安装将开始,如下所示。

    _images/rhel-install.png
  10. 安装完成后,单击 重启系统 进行重启。

    _images/rhel-reboot.png
  11. 断开 Ubuntu ISO 与您的主机服务器的虚拟介质的连接。

安装 NVIDIA 驱动程序#

NVIDIA 驱动程序是安装在操作系统上的软件驱动程序,负责与 NVIDIA GPU 通信,以启用加速 AI 或 HPC 工作负载。现在您已经安装了 Linux,NVIDIA AI Enterprise 驱动程序将完全启用 GPU 操作。在继续 NVIDIA 驱动程序安装之前,请确认 Nouveau 已禁用。有关确认此操作的说明,请参阅 Ubuntu 部分和 RHEL 部分。

数据中心驱动程序安装#

此驱动程序旨在用于裸金属设置或在 VM 中使用 GPU 直通模式,以加速 AI 或 HPC 工作负载。此驱动程序不适用于 vGPU 设置。

安装适用于 Linux 的 NVIDIA AI Enterprise 软件驱动程序需要

  • 编译器工具链

  • 内核头文件

注意

如果您喜欢使用 Debian 软件包,请参阅 Debian 说明

要为数据中心中运行的计算和 AI 工作负载启用 NVIDIA GPU 加速

  1. 此位置 下载 NVIDIA GPU 数据中心驱动程序。

  2. 选择 数据中心/TeslaGPU 系列Linux 64 位 以下载 .run 文件。

    注意

    要使用 .deb 驱动程序文件,请选择 数据中心/TeslaGPU 系列,然后选择 Linux 64 位 22.04。

  3. 登录系统并检查更新。

    sudo apt-get update
    
  4. 在终端中安装 GCC 编译器和 make 工具。

    sudo apt-get install build-essential
    
  5. 将 NVIDIA AI Enterprise Linux 驱动程序包(例如,NVIDIA-Linux-x86_64-550.90.12.run)复制到您要安装驱动程序的主机。

  6. 导航到包含 NVIDIA 驱动程序 .run 文件的目录。然后,使用 chmod 命令向 NVIDIA 驱动程序文件添加可执行权限。

    sudo chmod +x NVIDIA-Linux-x86_64-xxx.xx.xx.run
    
  7. 从控制台 shell 中,以 root 用户身份运行驱动程序安装程序,并接受默认设置。

    sudo sh ./NVIDIA-Linux-x86_64-xxx.xx.xx.run
    
  8. 重启系统。

    sudo reboot
    
  9. 系统重启后,确认您可以在 nvidia-smi 的输出中看到您的 NVIDIA vGPU 设备。

    nvidia-smi