NVIDIA Grace

Grace 是 NVIDIA 首款数据中心 CPU。所有 Grace 产品均以系统级芯片 (SoC) 为基础,该芯片包含 72 个高性能 Arm v9 核心,并采用 NVIDIA 专有的可扩展一致性互联 (SCF) 片上网络,以实现出色的核心间通信、内存带宽和全新的 GPU I/O 功能。Grace 在低功耗系统级芯片中提供了高性能计算基础。

Grace CPU 基于 Arm SystemReady SR 等标准构建,与各种 Arm 兼容的操作系统、PCIe 和 USB 外围设备、驱动程序以及应用程序软件兼容,这些软硬件在现有 Arm 部署(无论是在数据中心还是公共云中)中已很常见,包括 NVIDIA 的 CUDA 和 GPU 驱动生态系统。

Grace 提供多种平台,适用于传统和加速计算,包括 Grace Hopper 产品(如 GH200),该产品将单个 72 核 Grace CPU 与 H100 GPU 集成到新的通用内存子系统中,以实现下一代加速工作负载;以及 Grace CPU Superchip,该芯片具有双 CPU 配置,包含 144 个核心,在将数据中心效率提高 2 倍的同时,提供当今最高端传统双路 CPU 服务器的性能。

Grace 性能调优指南提供了最佳实践、软件和硬件配置建议,并概述了一些可用工具,以最大限度地提高所有 NVIDIA Grace 驱动系统上的性能。

Grace 操作系统安装指南

Grace 系统可以运行各种支持 AArch64 架构的 Linux 发行版。通过适当的内核支持和配置,您可以运行以下 Linux 发行版之一,并利用 Grace 的高级功能。这些指南提供了有关如何在 Grace 系统上安装 Linux 发行版的信息。

Grace 系统由多个硬件组件组成,这些组件需要在不同的软件子系统中获得支持。本指南提供了有关与 Grace 平台互操作所需的(或推荐的)已知补丁和配置设置的信息,并且可能对希望为这些系统创建自己的自定义软件(例如 Linux 内核)的客户有所帮助。
Grace CPU 基准测试指南演示了如何运行通常在 X86-64 和其他 Arm(tm) 平台上运行的常用 CPU 密集型应用程序和基准测试,并包括参考结果和程序,以帮助用户和开发人员了解如何在所有 Grace 驱动的平台上充分发挥通用 CPU 工作负载的潜力。
基于 NVIDIA Grace CPU SuperChip 的 MGX 服务器现已上市。这些服务器适用于大多数通常部署高性能 x86-64 或 Arm 系统并运行传统操作系统和软件的应用程序。这些服务器可以用作独立的计算服务器,集群用于 HPC 用例,并且可以通过添加可选的 PCIe GPU 来容纳加速。本指南涵盖了典型平台的开箱、基本操作系统安装和配置。
基于 NVIDIA GH200 SuperChip 的 MGX 服务器现已上市。这些服务器将 Hopper GPU 与 72 核 Grace CPU 和内存模块上的内存相结合,专为与底层 CPU 和内存平台紧密集成的加速应用程序而设计。本指南涵盖了典型平台的开箱、基本操作系统安装、驱动程序和运行时设置以及配置。
本应用说明提供了 NVIDIA GH200 基准测试数据,并将其与 NVIDIA® DGX™ H100 平台进行了比较。