🚀 Geneformer
Geneformer是一个基础的Transformer模型,它在大规模单细胞转录组语料库上进行了预训练,能够在网络生物学中数据有限的情况下实现上下文感知预测。
🚀 快速开始
Geneformer可在网络生物学中数据有限的情况下发挥作用,通过在大规模单细胞转录组语料库上的预训练,它能进行上下文感知预测。以下是使用示例代码:
from tdc.model_server.tokenizers.geneformer import GeneformerTokenizer
from tdc import tdc_hf_interface
import torch
tokenizer = GeneformerTokenizer()
x = tokenizer.tokenize_cell_vectors(adata,
ensembl_id="feature_id",
ncounts="n_measured_vars")
cells, _ = x
input_tensor = torch.tensor(cells)
geneformer = tdc_hf_interface("Geneformer")
model = geneformer.load()
attention_mask = torch.tensor(
[[x[0] != 0, x[1] != 0] for x in input_tensor])
outputs = model(batch,
attention_mask=attention_mask,
output_hidden_states=True)
layer_to_quant = quant_layers(model) + (
-1
)
embs_i = outputs.hidden_states[layer_to_quant]
embs = embs_i
✨ 主要特性
- 上下文感知预测:在网络生物学数据有限的情况下,能够实现上下文感知的预测。
- 预训练优势:在约3000万个单细胞转录组的大规模语料库上进行预训练,对网络动态有基本理解。
- 提升预测准确性:在对染色质和网络动态等下游任务进行微调时,能持续提高预测准确性。
📚 详细文档
摘要
绘制基因网络需要大量转录组数据来学习基因之间的联系,这阻碍了在数据有限的情况下的发现,包括罕见疾病和影响临床难以触及组织的疾病。最近,迁移学习通过利用在大规模通用数据集上预训练的深度学习模型,彻底改变了自然语言理解和计算机视觉等领域,这些模型随后可以用有限的特定任务数据针对大量下游任务进行微调。在这里,我们开发了一个基于注意力的上下文感知深度学习模型Geneformer,它在约3000万个单细胞转录组的大规模语料库上进行预训练,以在网络生物学数据有限的情况下实现特定上下文的预测。在预训练期间,Geneformer获得了对网络动态的基本理解,以完全自监督的方式在模型的注意力权重中编码网络层次结构。使用有限的特定任务数据针对与染色质和网络动态相关的各种下游任务进行微调表明,Geneformer持续提高了预测准确性。将其应用于患者数据有限的疾病建模时,Geneformer确定了心肌病的候选治疗靶点。总体而言,Geneformer代表了一个预训练的深度学习模型,可以针对广泛的下游应用进行微调,以加速关键网络调节因子和候选治疗靶点的发现。
📄 许可证
本项目采用Apache-2.0许可证。
📖 引用信息
TDC引用
@inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Xiang Lin and Kexin Huang and Michelle M Li and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}
其他引用
- C V Theodoris#, L Xiao, A Chopra, M D Chaffin, Z R Al Sayed, M C Hill, H Mantineo, E Brydon, Z Zeng, X S Liu, P T Ellinor#. Transfer learning enables predictions in network biology. Nature, 31 May 2023. (#共同通讯作者)
- H Chen*, M S Venkatesh*, J Gomez Ortega, S V Mahesh, T Nandi, R Madduri, K Pelka†, C V Theodoris†#. Quantized multi-task learning for context-specific representations of gene network dynamics. bioRxiv, 19 Aug 2024. (*共同第一作者, †共同高级作者, #通讯作者)
🔗 模型HF主页
https://huggingface.co/ctheodoris/Geneformer
⚠️ 注意事项
我们在TDC上使用Geneformer的20L - 95M - i4096版本。该模型在Genecorpus的95M版本上进行训练。
📋 模型信息
属性 |
详情 |
基础模型 |
ctheodoris/Geneformer、apliko/Geneformer |
标签 |
单细胞、基因组学 |