重要提示

您正在查看 NeMo 2.0 文档。此版本引入了对 API 的重大更改和一个新库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

多模态语言模型#

通过集成视觉编码器等附加结构,将语言模型 (LLM) 扩展到多模态领域的努力已成为近期研究的重点,尤其考虑到与从头开始训练多模态通用模型相比,它有可能显着降低成本。有关详细的支持信息,请参阅 NeMo 框架多模态模型用户指南

语音增强大型语言模型 (SpeechLLM)#

将语言模型 (LLM) 扩展到理解语音和音频输入的能力的努力,详细示例可以在 SpeechLLM 示例中找到。