基准测试#
根据来自 SAFE-GPT 的测试,性能和准确性基准建立在两个片段补全任务之上:motif-extension(基序扩展)和 scaffold-decoration(骨架修饰)。对于每个任务,使用了来自 SAFE-DRUGS 数据集的 10 个测试。关于这些任务的更多信息,请参见 这篇文章。
对于 motif-extension(基序扩展)任务,参数选择如下:
mask_length = 17
temperature = 1.2
noise = 1.6
step_size = 1
对于 scaffold-decoration(骨架修饰)任务,参数选择如下:
mask_length = 17
temperature = 1.2
noise = 2.0
step_size = 1
性能#
以下是生成 1000 个分子用于两个任务测试的平均耗时(以秒为单位),显示了模型在不同 GPU 型号上的相对性能。
GPU |
motif-extension(基序扩展) |
scaffold-decoration(骨架修饰) |
---|---|---|
A10G |
2.487 |
1.750 |
RTX6000 |
1.108 |
1.235 |
L40S |
1.892 |
1.207 |
A100 |
2.378 |
1.703 |
H100 |
1.677 |
1.006 |
分子生成请求的端到端时间(在 RTX6000 上)取决于以下参数:
num_molecule:要生成的分子数量。
steps:恢复所有掩码的步数。
context_length:token 数量,包括从输入分子序列 (SMILES) 转换而来的结尾和掩码 token。
num_molecule 上的耗时比较
context_length |
num_molecules |
steps |
walltime |
---|---|---|---|
20 |
500 |
5 |
1.7304 |
20 |
1000 |
5 |
3.3841 |
20 |
2000 |
5 |
6.9061 |
20 |
10000 |
5 |
33.8946 |
steps 上的耗时比较
context_length |
num_molecules |
steps |
walltime |
---|---|---|---|
20 |
1000 |
5 |
1.7304 |
20 |
1000 |
10 |
4.5902 |
20 |
1000 |
20 |
7.0649 |
context_length |
num_molecules |
steps |
walltime |
---|---|---|---|
40 |
1000 |
5 |
5.8414 |
40 |
1000 |
10 |
7.9896 |
40 |
1000 |
20 |
13.0631 |
context_length 上的耗时比较
context_length |
num_molecules |
steps |
walltime |
---|---|---|---|
20 |
1000 |
5 |
1.7304 |
40 |
1000 |
5 |
5.8414 |
80 |
1000 |
5 |
10.6091 |
准确性#
模型的准确性已通过生成 100 个分子,并使用以下指标进行评估:
validity(有效性):生成的 SMILES 中有效的比例。
uniqueness(独特性):所有有效分子中独特分子的比例。
diversity(多样性):生成分子的分子指纹中平均成对距离。
novelty(新颖性):从输入分子到生成分子的分子指纹的平均距离。
quality(质量):QED_score > 0.6 且 SA_score < 4 的生成分子的比例。
以下是准确性评估的摘要:
指标 |
motif-extension(基序扩展) |
scaffold-decoration(骨架修饰) |
---|---|---|
validity(有效性) |
0.902 (0.009) |
0.977 (0.004) |
uniqueness(独特性) |
0.690 (0.015) |
0.770 (0.012) |
diversity(多样性) |
0.606 (0.003) |
0.560 (0.003) |
novelty(新颖性) |
0.684 (0.002) |
0.657 (0.001) |
quality(质量) |
0.278 (0.012) |
0.332 (0.011) |