概述#

简介#

GenMol 是一种掩码扩散模型，基于Sequential Attachmentbased Fragment Embedding (SAFE)¹ 表示进行训练，用于基于片段的分子生成，可以作为各种药物发现任务的通用模型。与其他分子生成模型相比，GenMol 最重要的特点是，使用 SAFE 格式户能够设计一个高度灵活的生成方案模板，例如：

指定固定片段，这些片段在生成过程中将保持不变。
指定生成片段将附着的特定位置。
生成部分或完整片段，或生成多个片段。
生成指定长度范围内的片段。

该模型的推理过程是一个掩码-解掩码过程，其灵感来源于掩码离散扩散²的思想。它接受 SAFE 格式的文本序列（代表分子），其中一些片段被掩码（用星号符号表示），并将其转换为 token（带有掩码 token），然后将其提供给基于 Transformer/BERT 的神经网络模型。在每次前向传递中，模型将尝试预测所有掩码位置的 token，并且在一个步骤中只选择一个或几个具有最高概率值的 token，这个过程将重复进行，直到所有掩码位置都被恢复。

应用#

GenMol 可应用于各种分子生成场景

De Novo 生成 - 随机抽样具有特定长度的有效分子序列。
条件生成 - 从给定的分子结构完成序列，例如
- 基序扩展 & 支架修饰 - 将新的片段序列添加到分子中指定的附着点。
- 超结构生成 - 将新的片段序列添加到分子中任何可能的附着点（随机）。
- 连接体设计 - 生成连接两个分离分子片段在指定附着点的序列。
分子优化（使用 Oracle 方法），例如
- 先导化合物发现 - 从分子片段库中筛选生成的候选药物，以有效结合靶点。
- 先导化合物优化 - 从预先确定的先导化合物中抽样分子，以改善类药特性，例如 ADMET。

NIM 功能#

GenMol 模型被封装并作为 NVIDIA 推理微服务 (NIM) 提供，以提供高性能和用户友好的 AI 推理，并具有以下突出特点

快速且可扩展的部署 - GenMol NIM 可以作为 Docker 镜像下载，并快速部署到支持 NVIDIA GPU 的 Linux 系统，并且可以根据工作负载的需求轻松扩展到任意数量的 GPU。
简单接口 - GenMol 推理可以作为 OpenAPI 标准请求发送到 NIM 的 HTTP(s) 端点，这些端点可以托管在 NVIDIA Preview-API Catalog 中，也可以自部署在本地平台上，从而可以将其集成到分子设计和发现的不同管道或工作流程中。
企业级优化和支持 - NIM 产品针对 AI 推理的性能、可靠性和安全性进行了高度优化，并不断监控和修补 CVE，以确保企业级质量。

注意

有关该模型的更详细描述，请参阅模型卡。

参考文献#

¹ Gotta be SAFE: 分子设计的新框架，Noutahi 等人，2023 年。链接

² 简单有效的掩码扩散语言模型，Sahoo 等人，2024 年。链接