UniProt 数据集
UniProt 知识库 (UniProtKB) 是一个开放的蛋白质序列数据库,它从翻译的基因组数据中整理而来 [1]。UniProt 参考簇 (UniRef) 数据库提供了来自 UniProtKB [2] 的序列的聚类集合,这些序列已在先前的语言模型大型训练研究中使用,以提高蛋白质训练数据的多样性。UniRef 分层聚类蛋白质。在最高级别,UniRef100 将来自 UniProt 存档 (UniParc) 的具有相同一级序列的蛋白质分组。UniRef90 将这些独特的序列聚类到具有 90% 序列相似性的桶中,并从每个簇中选择单个序列作为代表序列。然后,通过将这些 UniRef90 代表性序列聚类到具有 50% 序列相似性的组中来构建 UniRef50。
用于 ESM-2 预训练的数据
由于 ESM-2 的原始训练/测试拆分不可用 [3],我们使用 UniProt 的 2024_03 版本复制了 ESM-2 预训练实验。按照 ESM-2 作者描述的方法,我们删除了人工序列,并保留了 0.5% 的 UniRef50 簇用于验证。在 65,672,139 个 UniRef50 簇中,这产生了 328,360 个验证序列。然后,我们运行 MMSeqs 以进一步确保训练集没有与验证集相似的序列污染。这产生了 65,182,365 个训练 UniRef50 簇,包含 187,382,018 个 UniRef90 序列。
预训练批次是通过从训练数据库中均匀采样每个 UniRef50 簇,并从每个簇中随机选择一个 UniRef90 序列来形成的。
数据可用性
数据集分发了两个版本,一个完整训练数据集(约 80Gb)和一个 10,000 个 UniRef50 簇随机切片(约 150Mb)。要加载和使用健全性数据集,可以使用 bionemo.core.data.load 函数在 BioNeMo2 缓存目录中实现健全性数据集
from bionemo.core.data.load import load
sanity_data_dir = load("esm2/testdata_esm2_pretrain:2.0")
NGC 资源链接
- 健全性数据集
- [完整数据集]
参考文献
-
UniProt Consortium. (2023). UniProt: 2023 年的通用蛋白质知识库。核酸研究, 51(D1), D523–D531. doi:10.1093/nar/gkac1052
-
Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef 簇:一种用于改进序列相似性搜索的全面且可扩展的替代方案。生物信息学 (牛津,英格兰), 31(6), 926–932. doi:10.1093/bioinformatics/btu739
-
Lin, Z., Akin, H., Rao, R., Hie, B., Zhu, Z., Lu, W., … Rives, A. (2023). 使用语言模型对原子级蛋白质结构进行进化尺度预测。《科学》(纽约,纽约州), 379(6637), 1123–1130. doi:10.1126/science.ade2574