跳到内容

bionemo-esm2

ESM-2 是一种蛋白质语言模型,采用 BERT 架构,在来自 UniProt 的数百万个蛋白质序列上进行训练。 ESM-2 学习氨基酸之间的模式和依赖关系,这些模式和依赖关系最终产生蛋白质的结构。 ESM-2 在掩码语言模型 (MLM) 目标上进行预训练。在预训练期间,15% 的输入序列被扰动,其中 80% 的残基被替换为掩码 token,10% 被替换为随机 token,10% 保持不变。然后训练模型以预测扰动位置的原始氨基酸,并结合周围氨基酸的上下文。

尽管 ESM-2 在 MLM 目标上进行预训练,但 ESM-2 学习的序列表示可以高度迁移到下游任务。 ESM-2 可以针对各种任务进行微调,包括二级结构预测,以及对细胞定位、热稳定性、溶解度和其他蛋白质特性的全序列预测。

设置

要安装,请执行以下操作

pip install -e .

要运行单元测试,请执行

pytest -v .