重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和一个新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

视觉模型#

NeMo 已经实现了基础视觉模型,为进一步探索多模态应用奠定了坚实的基础。这些基础视觉模型可以应用于各种多模态应用,包括多模态语言模型和文本到图像生成任务等。这些基础模型不仅奠定了功能基础,而且通过我们的自定义优化,在 NVIDIA GPU 上实现最先进的性能方面也发挥着至关重要的作用。

支持的模型#

NeMo 的视觉基础目前支持以下模型

模型

训练

微调

PEFT

评估

推理

视觉 Transformer (ViT)

Imagenet 零样本

AutoencoderKL (带有 KL 损失的 VAE)

待添加

重点模型#

  1. 视觉 Transformer (ViT): 视觉 Transformer (ViT) [VISION-MODELS2] 是图像分类任务中传统使用的卷积神经网络 (CNN) 的引人注目的替代方案。与处理整个图像的 CNN 不同,ViT 将图像分成固定大小的补丁,将它们线性嵌入到 1D 向量中,并添加位置嵌入。然后将这些向量馈送到 Transformer 编码器,以捕获图像的局部和全局特征。该模型已显示在计算效率和准确性方面明显优于 CNN,使其成为图像相关任务的强大工具。

  2. AutoencoderKL(带有 KL 损失的变分自动编码器):AutoencoderKL 模型是配备了 KL 损失的变分自动编码器 (VAE),在 Diederik P. Kingma 和 Max Welling 的论文《Auto-Encoding Variational Bayes》[VISION-MODELS1] 中介绍。该模型擅长将图像编码为潜在表示,并将这些表示解码回图像。损失函数中的 KL 散度项用于使编码器输出的分布尽可能接近标准多元正态分布,从而有助于探索潜在空间。变分自动编码器的潜在空间的连续性使得随机采样和插值成为可能,这对于图像重建和生成等任务至关重要。

注意

NeMo Megatron 有一个企业版,其中包含用于数据预处理、超参数调整、容器、各种云的脚本等的工具。使用企业版,您还可以获得部署工具。在此处申请提前访问

参考文献#

[VISION-MODELS1]

Diederik P Kingma 和 Max Welling。Auto-encoding variational bayes。2022。arXiv:1312.6114

[VISION-MODELS2]

Chitwan Saharia、William Chan、Saurabh Saxena、Lala Li、Jay Whang、Emily Denton、Seyed Kamyar Seyed Ghasemipour、Burcu Karagol Ayan、S. Sara Mahdavi、Rapha Gontijo Lopes、Tim Salimans、Jonathan Ho、David J Fleet 和 Mohammad Norouzi。Photorealistic text-to-image diffusion models with deep language understanding。2022。arXiv:2205.11487