重要提示
您正在查看 NeMo 2.0 文档。此版本引入了 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
视觉-语言基础#
人类自然地使用多种感官(如视觉和听觉)处理信息。类似地,多模态学习旨在创建可以处理不同数据类型(如图像、文本和音频)的模型。结合视觉和语言的模型(如 OpenAI 的 CLIP)的趋势正在增长。这些模型擅长对齐图像和文本特征、图像字幕和视觉问答等任务。它们无需特定训练即可泛化的能力提供了许多实际用途。有关详细的支持信息,请参阅 NeMo 框架多模态模型用户指南。