bionemo-geneformer
Geneformer 是一个基础单细胞 RNA (scRNA) 语言模型,它使用 BERT 架构在数百万个单细胞 RNA 序列上进行训练。它捕获基因共表达模式以学习细胞表征,从而实现跨生物学和医学的预测任务。Geneformer 在掩码语言模型 (MLM) 目标上进行训练,其中单细胞 RNA 序列中表达等级排序的“基因 tokens”被掩盖、替换或保持不变,并且模型学习根据上下文预测这些被掩盖的基因。此模块提供 Dataset 类、用于表达等级排序的 collator 以及用于构建 Geneformer 风格模型的 Config 对象。
设置
要安装,请从此目录执行以下命令(或将安装指向此目录)
pip install -e .
要运行单元测试,请执行
pytest -v .
获取数据
数据集应为 AnnData (.h5ad) 对象的形式,例如从 Cell x Gene | CZI 下载的对象。然后使用 sub-packages/bionemo-scdl/src/bionemo/scdl/scripts/convert_h5ad_to_scdl.py
对它们进行预处理。
Geneformer-nv 10M 和 106M
请参阅数据集卡片和模型卡片,以了解有关为 Geneformer-nv 的 10M 和 106M 提供的预训练检查点的更多信息。