🚀 Geneformer
Geneformer是一個基礎的Transformer模型,它在大規模單細胞轉錄組語料庫上進行了預訓練,能夠在網絡生物學中數據有限的情況下實現上下文感知預測。
🚀 快速開始
Geneformer可在網絡生物學中數據有限的情況下發揮作用,通過在大規模單細胞轉錄組語料庫上的預訓練,它能進行上下文感知預測。以下是使用示例代碼:
from tdc.model_server.tokenizers.geneformer import GeneformerTokenizer
from tdc import tdc_hf_interface
import torch
tokenizer = GeneformerTokenizer()
x = tokenizer.tokenize_cell_vectors(adata,
ensembl_id="feature_id",
ncounts="n_measured_vars")
cells, _ = x
input_tensor = torch.tensor(cells)
geneformer = tdc_hf_interface("Geneformer")
model = geneformer.load()
attention_mask = torch.tensor(
[[x[0] != 0, x[1] != 0] for x in input_tensor])
outputs = model(batch,
attention_mask=attention_mask,
output_hidden_states=True)
layer_to_quant = quant_layers(model) + (
-1
)
embs_i = outputs.hidden_states[layer_to_quant]
embs = embs_i
✨ 主要特性
- 上下文感知預測:在網絡生物學數據有限的情況下,能夠實現上下文感知的預測。
- 預訓練優勢:在約3000萬個單細胞轉錄組的大規模語料庫上進行預訓練,對網絡動態有基本理解。
- 提升預測準確性:在對染色質和網絡動態等下游任務進行微調時,能持續提高預測準確性。
📚 詳細文檔
摘要
繪製基因網絡需要大量轉錄組數據來學習基因之間的聯繫,這阻礙了在數據有限的情況下的發現,包括罕見疾病和影響臨床難以觸及組織的疾病。最近,遷移學習通過利用在大規模通用數據集上預訓練的深度學習模型,徹底改變了自然語言理解和計算機視覺等領域,這些模型隨後可以用有限的特定任務數據針對大量下游任務進行微調。在這裡,我們開發了一個基於注意力的上下文感知深度學習模型Geneformer,它在約3000萬個單細胞轉錄組的大規模語料庫上進行預訓練,以在網絡生物學數據有限的情況下實現特定上下文的預測。在預訓練期間,Geneformer獲得了對網絡動態的基本理解,以完全自監督的方式在模型的注意力權重中編碼網絡層次結構。使用有限的特定任務數據針對與染色質和網絡動態相關的各種下游任務進行微調錶明,Geneformer持續提高了預測準確性。將其應用於患者數據有限的疾病建模時,Geneformer確定了心肌病的候選治療靶點。總體而言,Geneformer代表了一個預訓練的深度學習模型,可以針對廣泛的下游應用進行微調,以加速關鍵網絡調節因子和候選治療靶點的發現。
📄 許可證
本項目採用Apache-2.0許可證。
📖 引用信息
TDC引用
@inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Xiang Lin and Kexin Huang and Michelle M Li and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}
其他引用
- C V Theodoris#, L Xiao, A Chopra, M D Chaffin, Z R Al Sayed, M C Hill, H Mantineo, E Brydon, Z Zeng, X S Liu, P T Ellinor#. Transfer learning enables predictions in network biology. Nature, 31 May 2023. (#共同通訊作者)
- H Chen*, M S Venkatesh*, J Gomez Ortega, S V Mahesh, T Nandi, R Madduri, K Pelka†, C V Theodoris†#. Quantized multi-task learning for context-specific representations of gene network dynamics. bioRxiv, 19 Aug 2024. (*共同第一作者, †共同高級作者, #通訊作者)
🔗 模型HF主頁
https://huggingface.co/ctheodoris/Geneformer
⚠️ 注意事項
我們在TDC上使用Geneformer的20L - 95M - i4096版本。該模型在Genecorpus的95M版本上進行訓練。
📋 模型信息
屬性 |
詳情 |
基礎模型 |
ctheodoris/Geneformer、apliko/Geneformer |
標籤 |
單細胞、基因組學 |