ProteinMPNN NIM 端点#

该模型提供以下端点。输入和输出参数对应于提交到端点或从端点接收的 JSON 对象中的属性。

预测氨基酸序列#

端点路径: biology/ipd/proteinmpnn/predict

输入参数#

input_pdb (string, null): 可选。用于预测氨基酸序列的输入蛋白质。
input_pdb_asset (string, null): 可选。可选的预上传 NVCF 资产 ID。如果使用此字段，则应通过 input_pdb 参数提供原始文件名。
input_pdb_chains (array, null): 可选。该模型将为输入蛋白质中的给定链设计氨基酸序列。如果未指定，则默认设计蛋白质中的所有链。
ca_only (boolean, null): 可选。默认为 False。CA-only 模型有助于解决蛋白质设计中的特定需求，其中关注 α 碳 (CA) 原子可能是有利的。
use_soluble_model (boolean, null): 可选。默认为 False。ProteinMPNN 提供可溶和非可溶模型，以满足不同蛋白质设计任务的特定需求。可溶模型更适合需要高溶解度的应用，例如生物技术工艺、药物开发和生化分析。非可溶模型对于膜蛋白研究、结构生物学和某些溶解度不太重要或蛋白质需要在疏水环境中发挥作用的工业应用中是有利的。这种灵活性允许研究人员根据其项目的具体要求选择合适的模型。
random_seed (integer, null): 可选。该模型允许用户根据具体需求设置或不设置随机种子。例如，如果重现性至关重要，建议设置固定种子。但是，对于需要探索和多样性的任务，用户可以选择不设置种子，从而使模型能够利用随机性的优势。
num_seq_per_target (integer, null): 可选。默认为 1。此参数指定每个目标蛋白质结构生成的序列数量。通过设置 num_seq_per_target，用户可以确定模型应预测多少个不同的序列，这些序列将折叠成给定的蛋白质骨架结构。
sampling_temp (array, null): 可选。ProteinMPNN 中采样温度的单位是无量纲的，范围从 0 到 1。此参数用于调整序列中每个位置 20 种氨基酸的概率值，从而控制设计结果的多样性。值越高，设计结果的多样性越高，而值越低，结果的多样性越低，设计越保守。推荐范围为 0.1 到 0.3。
pssm_jsonl (string, null): 可选。PSSM 在 ProteinMPNN 的上下文中是一个工具，它将进化信息整合到蛋白质设计过程中。它通过利用同源蛋白质序列中观察到的保守模式，帮助指导突变并提高预测准确性。这使得设计的蛋白质更可能稳定且功能正常，从而提高设计过程的整体成功率。
pssm_multi (number, null): 可选。默认为 0.0。此参数用于调整 PSSM 对蛋白质序列设计过程的影响，允许用户在进化数据和模型预测之间取得平衡，以实现所需的设计结果。值为 0.0 表示根本不使用 PSSM，设计完全依赖于 ProteinMPNN 模型的预测。值为 1.0 表示设计过程完全忽略 ProteinMPNN 模型的预测，而仅依赖于 PSSM。中间值允许 PSSM 和模型预测的混合。
pssm_threshold (number, null): 可选。默认为 0.0。参数可以取负无穷大和正无穷大之间的任何值。较高的阈值将更具限制性，仅允许 PSSM 分数高于阈值的氨基酸包含在设计中。较低的阈值将限制性较小，允许考虑更多氨基酸。将阈值设置为非常低的值（例如，负无穷大）实际上意味着允许所有氨基酸，而非常高的值（例如，正无穷大）可能会排除所有氨基酸。
pssm_bias_flag (boolean, null): 可选。默认为 False。此参数确定是否在蛋白质序列设计过程中应用基于位置特异性评分矩阵 (PSSM) 的偏差。
pssm_log_odds_flag (boolean, null): 可选。默认为 False。此参数控制是否将 PSSM 值转换为对数几率分数。对数几率分数是表示在给定位置观察到特定氨基酸相对于背景分布的可能性的常用方法。这种转换可以使 PSSM 值更易于解释，并且对于指导设计过程非常有用。
fixed_positions_jsonl (string, null): 可选。此参数允许控制蛋白质序列中的哪些残基在设计过程中保持不变，从而使用户能够根据实验或功能要求实施特定约束。注意：固定位置从 1 开始索引，并且相对于新序列。
omit_AAs (array, null): 可选。此参数允许控制应排除蛋白质序列中的哪些氨基酸。氨基酸以单字母 FASTA 表示形式指定。
omit_AA_jsonl (string, null): 可选。此参数允许从指定链索引的设计蛋白质序列中排除特定氨基酸，从而为用户提供对生成蛋白质的特性和功能的更大控制权。示例：‘{“input”: {“A”: [[[1], “V”]]}}’，将在链 A 的第一个 AA 位置（索引从 1 开始）省略缬氨酸。
bias_AA_jsonl (string, null): 可选。通过提供偏差字典，用户可以微调设计序列的氨基酸组成。这有助于实现特定的设计目标，例如避免可能导致不良特性的某些氨基酸，或促进增强蛋白质所需特性的氨基酸。字典指定为 JSON 对象，例如，{“A”: -1.1, “F”: 0.7} 将导致丙氨酸氨基酸不太可能出现在设计的蛋白质中，而苯丙氨酸更有可能出现。
bias_by_res_jsonl (string, null): 可选。通过提供位置特异性偏差字典，用户可以微调设计序列在特定残基位置的氨基酸组成。这有助于实现特定的设计目标，例如促进增强蛋白质在特定位点所需特性的氨基酸，或避免可能导致不良特性的氨基酸。
tied_positions_jsonl (string, null): 可选。通过提供绑定位置字典，用户可以确保特定残基在不同位置或链中是相同的。这对于设计具有内部重复、循环对称性或多链组装体的蛋白质尤其重要，在这些蛋白质中，某些残基必须相同才能维持所需的结构和功能。

输出#

mfasta (string): 必需。此输出包含多 FASTA 格式的设计蛋白质序列，这是一种用于表示多个氨基酸序列的标准文本格式。
scores (array): 必需。此输出提供设计序列的对数概率，这表明给定输入结构的每个序列的可能性，有助于评估设计的质量和置信度。
probs (array): 必需。此输出包括序列中每个位置的每个氨基酸的预测概率，从而提供对模型预测和每个位点变异性的详细见解。

就绪检查#

端点路径: v1/health/ready

输入参数#

无。

输出#

端点的输出是一个 JSON 响应，其中包含一个指示微服务就绪状态的值。当 NIM 准备就绪时，它返回响应 {"status":"ready"}。