空中 CUDA 加速 RAN#

空中 CUDA 加速 RAN 整合了用于 5G 和 AI 框架的 Aerial 软件以及 NVIDIA 加速计算平台,从而降低了 TCO (总体拥有成本),并为电信运营商释放了基础设施货币化的潜力。

空中 CUDA 加速 RAN 具有以下主要特性

  • 软件定义、可扩展、模块化、高度可编程且云原生,无需任何固定功能加速器。使生态系统能够灵活地为其商业产品采用必要的模块。

  • DU L1、DU L2+、CU、UPF 和其他网络功能的 full-stack (全栈) 加速,实现工作负载整合,以获得最佳性能和频谱效率,从而实现一流的系统 TCO (总体拥有成本)。

  • 通用基础设施,具有多租户能力,可以为传统工作负载和前沿 AI 应用提供支持,从而实现一流的 RoA (资产回报率)。

24-3 版本的新增功能

以下是 Aerial CUDA 加速 RAN 24-3 版本中的新增功能

  • Aerial cuPHY: CUDA 加速的内联 PHY

    • mMIMO 的多小区支持 (最多 3 个小区)

    • 在特殊时隙中调度 DL

    • 增加 4T4R 和 mMIMO 中的 SRS 时隙

    • 不同 UE 的 SRS CS 复用

    • PRG 级别的 UL PUSCH 信道估计

    • RKHS 信道估计

  • Aerial E2E: 系统级 / 端到端验证

    • C/U/S 面的前传端口故障转移验证 (主备模式)

    • 完成使用 PRACH 的第 8 章一致性测试

    • AI + RAN 的 MIG 验证

  • Aerial Redundancy/Resiliency: CUDA 加速 RAN 冗余/弹性特性

    • RU 健康监视器 - 主动检测 ORU 的 FH 连接问题并采取纠正措施

    • 引入 L1 恢复期 - 如果 L1 运行延迟,则丢弃一段时间的 FAPI 消息,以允许 L1 恢复

    • nvIPC pcap 采集改进 - 引入了在 nvIPC pcap 采集中添加过滤器 (小区 ID,消息 ID 级别) 的功能

    • 控制台上的回溯输出 - Aerial 在崩溃时在控制台上打印回溯信息

  • Aerial cuMAC: CUDA 加速 MAC 调度器

    • DRL MCS 选择模块

      • 预训练神经网络位于 aerial_sdk/cuMAC/testVectors 下

      • 基于 TensorRT 的推理

    • 64TR MU-MIMO 调度器

      • 基于 SRS SNR 估计的 UE 排序算法

      • 基于 SRS 信道系数估计的 UE 分组算法

    • 非周期 SRS 资源管理器

      • 与 MU-MIMO UE 排序算法结合使用

    • 使用基于 GPU 的 TDL 信道模型的 4T4R 系统仿真

    • 改进的 type-0 和 type-1 4T4R 调度器的算法和 CUDA 实现

  • pyAerial: Aerial cuPHY 的 Python 接口

    • CSI-RS 传输管道

    • RSRP 以及均衡器前后 SINR 估计

    • 载波频率偏移和定时提前估计

    • CRC 校验

    • OFDM 衰落信道仿真

    • 支持 PUSCH 接收机管道及其组件的多个 UE 组

    • 改进的 PUSCH 接收机管道及其组件的 API

24-2.1 版本的新增功能

以下是 Aerial CUDA 加速 RAN 24-2.1 版本中的新增功能

  • Aerial cuPHY: CUDA 加速的内联 PHY

    • 64T64R Massive MIMO

      • 100 MHz DL 最大组合 16 层 + UL 最大组合 8 层 + SRS

      • 64T64R SRS + 动态 + 静态波束赋形权重

      • 支持多个动态 UE 组

      • 支持灵活的 PRG 大小和 PRB 数量

      • 支持来自 L2 的 SRS 缓冲区索引

      • 支持非 2^n 层

      • 在拆分 C-Plane 部分时使用不同的 section ID

      • CSIRS + PDSCH 和其他信道组合的 FH 消息传递

    • 支持 GH200+BF3 作为 RU 模拟器平台

24-2 版本的新增功能

以下是 Aerial CUDA 加速 RAN 24-2 版本中的新增功能

  • Aerial cuPHY: CUDA 加速的内联 PHY

    • MGX Grace Hopper 多小区容量,具有电信级流量模型

      • 20 个峰值负载的 4T4R @ 100MHz

      • 容量也已通过更具挑战性的流量模型验证

        • S-slot 中的 PUSCH 和 PDCCH 符号

    • L1-L2 接口增强

      • PDSCH 和 PDCCH 的单独 FAPI 请求时间线

  • Aerial cuMAC: CUDA 加速 MAC 调度器

    • cuMAC-Sch

      • 4T4R CUDA 实现已完成

    • cuMAC-CP

      • 4T4R 实现 (功能性 - 早期访问)

  • Aerial cuBB/E2E: 系统级 / 端到端验证

    • 空中 (OTA) 验证

      • CBRS O-RU

      • 8 个 UE OTA,在 > 8 小时内 6 个 UE/TTI

    • RedHat-OCP

      • 多小区容量已在 MGX (GH200+BF3) 上验证

    • O-RAN 前传

      • 16 位定点 IQ 样本已通过 E2E 验证 (Keysight eLSU)

      • 同步双端口 FH 功能 (8 个峰值小区;每个端口 4 个)

    • L2 集成

      • 每个 L1 的多 L2 容器实例已通过 E2E 验证

  • pyAerial: Aerial cuPHY 的 Python 接口

    • TensorRT 推理引擎

      • 使用 pyAerial 验证神经 PUSCH 接收机的 Jupyter notebook 示例

    • LDPC API 改进

      • 向 LDPC 解码器添加了软输出

    • LS 信道估计

    • 对 Grace Hopper 的有限支持

      • 将 pyAerial 与 Aerial Data Lakes 一起运行