概述#

MolMIM 是一种用于小分子药物开发的先进生成模型,可以学习信息丰富且聚类的潜在空间。它是一种概率自编码器,可为可变长度的 SMILES 字符串提供固定长度的表示。MolMIM 通过互信息机 (MIM) 学习进行训练,并且可以使用其聚类潜在空间的扰动来采样有效的 SMILES 字符串。

MolMIM 可以

  • 学习信息丰富且有意义聚类的潜在空间

  • 使用初始种子分子从此潜在空间中采样有效分子

  • 在特定约束下生成具有所需性质的新型小分子

注意

有关该模型的更详细描述,请参阅 MolMIM 手稿

MolMIM 的训练过程促进了密集的潜在空间,从而简化了采样有效 SMILES 字符串的过程。与竞争技术的比较表明,就采样 SMILES 字符串的有效性、独特性和新颖性而言,MolMIM 具有卓越的分子生成能力。

MolMIM 功能#

嵌入#

从 MolMIM 检索给定输入分子的嵌入,从而实现

  • 高维空间中的分子表示

  • 分子的相似性分析和聚类

  • 用作其他 AI 模型或算法的输入

隐藏状态#

从 MolMIM 检索给定输入分子的隐藏状态(也称为“潜在代码”),从而实现

  • 分析分子结构的潜在属性和模式

  • 分子结构的操纵和修改

  • 用作其他 AI 模型或算法的输入

解码#

将隐藏状态表示解码为 SMILES 字符串序列,从而实现

  • 从给定的潜在代码生成新型分子

  • 从其隐藏状态重建原始输入分子

  • 用作理解分子结构和潜在空间之间关系的工具

采样#

在给定种子分子的缩放半径内采样潜在空间,以无引导方式生成新的分子样本,从而实现

  • 探索给定分子周围的分子空间

  • 用于生成多样化的分子集或库

  • 用作引导采样或优化的起点

生成#

使用 CMA-ES 引导的采样生成新型分子(可选地,在针对特定属性进行优化时),从而实现

  • 针对特定属性或标准优化分子

  • 用于生成具有所需性质或特征的分子

  • 用于提高生成分子的质量或性能

NIM 的优势#

NIM 为自托管 AI 应用程序提供了一种简单易用的部署途径。NIM 为系统管理员和开发人员提供的两个主要优势是

  1. 提高生产力:NIM 通过提供一种标准化的方式将 AI 功能添加到应用程序中,使开发人员能够快速构建生成式 AI 应用程序,只需几分钟而不是几周。

  2. 简化部署:NIM 提供容器,可以轻松部署在各种平台(包括云、数据中心或工作站)上,从而方便开发人员测试和部署其应用程序。

在小分子药物开发背景下,这些优势可以

  1. 加速先导化合物优化:NIM 可用于加速先导化合物优化过程,通过快速生成和测试多种分子结构,使研究人员能够更有效地识别潜在的先导化合物。

  2. 简化数据分析:NIM 可用于分析药物发现过程中生成的大型数据集,例如分子动力学模拟或高通量筛选数据,以识别可以为新药开发提供信息的模式和趋势。

  3. 改进协作:NIM 可以通过提供用于共享和集成 AI 模型的标准化平台来促进研究人员之间的协作,使团队能够更有效和高效地协同工作。

  4. 增强预测建模:NIM 可用于开发和部署预测模型,这些模型可以准确预测小分子的性质和行为,例如它们的结合亲和力或毒性,从而使研究人员能够在药物开发过程中做出更明智的决策。

MolMIM 是许多可应用于生物科学领域的 NIM 之一。NIM 使链接模型以开发完整的in silico药物发现管道变得容易。