重要提示

您正在查看 NeMo 2.0 文档。此版本引入了 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

视觉-语言基础#

人类自然地使用多种感官（如视觉和听觉）处理信息。类似地，多模态学习旨在创建可以处理不同数据类型（如图像、文本和音频）的模型。结合视觉和语言的模型（如 OpenAI 的 CLIP）的趋势正在增长。这些模型擅长对齐图像和文本特征、图像字幕和视觉问答等任务。它们无需特定训练即可泛化的能力提供了许多实际用途。有关详细的支持信息，请参阅 NeMo 框架多模态模型用户指南。