跳到内容

bionemo-geneformer

Geneformer 是一个基础单细胞 RNA (scRNA) 语言模型,它使用 BERT 架构在数百万个单细胞 RNA 序列上进行训练。它捕获基因共表达模式以学习细胞表征,从而实现跨生物学和医学的预测任务。Geneformer 在掩码语言模型 (MLM) 目标上进行训练,其中单细胞 RNA 序列中表达等级排序的“基因 tokens”被掩盖、替换或保持不变,并且模型学习根据上下文预测这些被掩盖的基因。此模块提供 Dataset 类、用于表达等级排序的 collator 以及用于构建 Geneformer 风格模型的 Config 对象。

设置

要安装,请从此目录执行以下命令(或将安装指向此目录)

pip install -e .

要运行单元测试,请执行

pytest -v .

获取数据

数据集应为 AnnData (.h5ad) 对象的形式,例如从 Cell x Gene | CZI 下载的对象。然后使用 sub-packages/bionemo-scdl/src/bionemo/scdl/scripts/convert_h5ad_to_scdl.py 对它们进行预处理。

Geneformer-nv 10M 和 106M

请参阅数据集卡片和模型卡片,以了解有关为 Geneformer-nv 的 10M 和 106M 提供的预训练检查点的更多信息。

参见