基准测试#

根据来自 SAFE-GPT 的测试,性能和准确性基准建立在两个片段补全任务之上:motif-extension(基序扩展)和 scaffold-decoration(骨架修饰)。对于每个任务,使用了来自 SAFE-DRUGS 数据集的 10 个测试。关于这些任务的更多信息,请参见 这篇文章

对于 motif-extension(基序扩展)任务,参数选择如下:

  • mask_length = 17

  • temperature = 1.2

  • noise = 1.6

  • step_size = 1

对于 scaffold-decoration(骨架修饰)任务,参数选择如下:

  • mask_length = 17

  • temperature = 1.2

  • noise = 2.0

  • step_size = 1

性能#

以下是生成 1000 个分子用于两个任务测试的平均耗时(以秒为单位),显示了模型在不同 GPU 型号上的相对性能。

GPU

motif-extension(基序扩展)

scaffold-decoration(骨架修饰)

A10G

2.487

1.750

RTX6000

1.108

1.235

L40S

1.892

1.207

A100

2.378

1.703

H100

1.677

1.006

分子生成请求的端到端时间(在 RTX6000 上)取决于以下参数:

  • num_molecule:要生成的分子数量。

  • steps:恢复所有掩码的步数。

  • context_length:token 数量,包括从输入分子序列 (SMILES) 转换而来的结尾和掩码 token。

num_molecule 上的耗时比较

context_length

num_molecules

steps

walltime

20

500

5

1.7304

20

1000

5

3.3841

20

2000

5

6.9061

20

10000

5

33.8946

steps 上的耗时比较

context_length

num_molecules

steps

walltime

20

1000

5

1.7304

20

1000

10

4.5902

20

1000

20

7.0649

context_length

num_molecules

steps

walltime

40

1000

5

5.8414

40

1000

10

7.9896

40

1000

20

13.0631

context_length 上的耗时比较

context_length

num_molecules

steps

walltime

20

1000

5

1.7304

40

1000

5

5.8414

80

1000

5

10.6091

准确性#

模型的准确性已通过生成 100 个分子,并使用以下指标进行评估:

  • validity(有效性):生成的 SMILES 中有效的比例。

  • uniqueness(独特性):所有有效分子中独特分子的比例。

  • diversity(多样性):生成分子的分子指纹中平均成对距离。

  • novelty(新颖性):从输入分子到生成分子的分子指纹的平均距离。

  • quality(质量):QED_score > 0.6 且 SA_score < 4 的生成分子的比例。

以下是准确性评估的摘要:

指标

motif-extension(基序扩展)

scaffold-decoration(骨架修饰)

validity(有效性)

0.902 (0.009)

0.977 (0.004)

uniqueness(独特性)

0.690 (0.015)

0.770 (0.012)

diversity(多样性)

0.606 (0.003)

0.560 (0.003)

novelty(新颖性)

0.684 (0.002)

0.657 (0.001)

quality(质量)

0.278 (0.012)

0.332 (0.011)