Megatron-Core 是一个自包含、轻量级的 PyTorch 库,它打包了训练大规模 Transformer 所需的一切要素。它提供了丰富的 GPU 技术集合,用于优化内存、计算和通信,这些技术继承自 Megatron-LM 和 Transformer Engine,并具有系统级效率方面的尖端创新。通过将这些 GPU 优化技术抽象为可组合和模块化的 API,Megatron Core 为开发者和模型研究人员提供了充分的灵活性,以大规模训练定制的 Transformer,并轻松地在 NVIDIA 加速计算基础设施上开发他们自己的 LLM 框架。
Megatron Core 的开发者文档涵盖了 API 文档、快速入门指南以及深入探讨大规模优化 LLM 性能所需的高级 GPU 技术。