重要提示

您正在查看 NeMo 2.0 文档。此版本引入了对 API 的重大更改和一个新库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

多模态语言模型#

通过集成视觉编码器等附加结构，将语言模型 (LLM) 扩展到多模态领域的努力已成为近期研究的重点，尤其考虑到与从头开始训练多模态通用模型相比，它有可能显着降低成本。有关详细的支持信息，请参阅 NeMo 框架多模态模型用户指南。

语音增强大型语言模型 (SpeechLLM)#

将语言模型 (LLM) 扩展到理解语音和音频输入的能力的努力，详细示例可以在 SpeechLLM 示例中找到。