概述#
简介#
GenMol 是一种掩码扩散模型,基于Sequential Attachmentbased Fragment Embedding (SAFE)1 表示进行训练,用于基于片段的分子生成,可以作为各种药物发现任务的通用模型。与其他分子生成模型相比,GenMol 最重要的特点是,使用 SAFE 格式户能够设计一个高度灵活的生成方案模板,例如:
指定固定片段,这些片段在生成过程中将保持不变。
指定生成片段将附着的特定位置。
生成部分或完整片段,或生成多个片段。
生成指定长度范围内的片段。
该模型的推理过程是一个掩码-解掩码过程,其灵感来源于掩码离散扩散2的思想。它接受 SAFE 格式的文本序列(代表分子),其中一些片段被掩码(用星号符号表示),并将其转换为 token(带有掩码 token),然后将其提供给基于 Transformer/BERT 的神经网络模型。在每次前向传递中,模型将尝试预测所有掩码位置的 token,并且在一个步骤中只选择一个或几个具有最高概率值的 token,这个过程将重复进行,直到所有掩码位置都被恢复。
应用#
GenMol 可应用于各种分子生成场景
De Novo 生成 - 随机抽样具有特定长度的有效分子序列。
条件生成 - 从给定的分子结构完成序列,例如
基序扩展 & 支架修饰 - 将新的片段序列添加到分子中指定的附着点。
超结构生成 - 将新的片段序列添加到分子中任何可能的附着点(随机)。
连接体设计 - 生成连接两个分离分子片段在指定附着点的序列。
分子优化(使用 Oracle 方法),例如
先导化合物发现 - 从分子片段库中筛选生成的候选药物,以有效结合靶点。
先导化合物优化 - 从预先确定的先导化合物中抽样分子,以改善类药特性,例如 ADMET。
NIM 功能#
GenMol 模型被封装并作为 NVIDIA 推理微服务 (NIM) 提供,以提供高性能和用户友好的 AI 推理,并具有以下突出特点
快速且可扩展的部署 - GenMol NIM 可以作为 Docker 镜像下载,并快速部署到支持 NVIDIA GPU 的 Linux 系统,并且可以根据工作负载的需求轻松扩展到任意数量的 GPU。
简单接口 - GenMol 推理可以作为 OpenAPI 标准请求发送到 NIM 的 HTTP(s) 端点,这些端点可以托管在 NVIDIA Preview-API Catalog 中,也可以自部署在本地平台上,从而可以将其集成到分子设计和发现的不同管道或工作流程中。
企业级优化和支持 - NIM 产品针对 AI 推理的性能、可靠性和安全性进行了高度优化,并不断监控和修补 CVE,以确保企业级质量。

注意
有关该模型的更详细描述,请参阅 模型卡。
参考文献#
1 Gotta be SAFE: 分子设计的新框架,Noutahi 等人,2023 年。链接
2 简单有效的掩码扩散语言模型,Sahoo 等人,2024 年。链接