🚀 Geneformer
Geneformerは、ネットワーク生物学におけるデータが限られた設定で文脈を考慮した予測を可能にするために、大規模な単一細胞トランスクリプトームコーパスで事前学習された基礎的なトランスフォーマーモデルです。
🚀 クイックスタート
Geneformerは、ネットワーク生物学におけるデータが限られた状況での文脈固有の予測を可能にするために、約3000万の単一細胞トランスクリプトームの大規模コーパスで事前学習された文脈認識型の深層学習モデルです。
✨ 主な機能
- 大規模な単一細胞トランスクリプトームコーパスで事前学習されている。
- ネットワーク生物学におけるデータが限られた設定で文脈を考慮した予測を可能にする。
- 完全に自己教師付き方式でモデルのアテンション重みにネットワーク階層をエンコードする。
- 限られたタスク固有のデータを使用して下流タスクに微調整することで、予測精度を向上させる。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
from tdc.model_server.tokenizers.geneformer import GeneformerTokenizer
from tdc import tdc_hf_interface
import torch
tokenizer = GeneformerTokenizer()
x = tokenizer.tokenize_cell_vectors(adata,
ensembl_id="feature_id",
ncounts="n_measured_vars")
cells, _ = x
input_tensor = torch.tensor(cells)
geneformer = tdc_hf_interface("Geneformer")
model = geneformer.load()
attention_mask = torch.tensor(
[[x[0] != 0, x[1] != 0] for x in input_tensor])
outputs = model(batch,
attention_mask=attention_mask,
output_hidden_states=True)
layer_to_quant = quant_layers(model) + (
-1
)
embs_i = outputs.hidden_states[layer_to_quant]
embs = embs_i
📚 ドキュメント
概要
遺伝子ネットワークのマッピングには、遺伝子間の関係を学習するために大量のトランスクリプトームデータが必要です。これは、希少疾患や臨床的にアクセスが困難な組織に影響を与える疾患など、データが限られた設定での発見を妨げています。最近、転移学習は、大規模な一般データセットで事前学習された深層学習モデルを活用することで、自然言語理解やコンピュータビジョンなどの分野を革新しました。これらのモデルは、限られたタスク固有のデータで広範な下流タスクに微調整することができます。ここでは、ネットワーク生物学におけるデータが限られた設定で文脈固有の予測を可能にするために、約3000万の単一細胞トランスクリプトームの大規模コーパスで事前学習された文脈認識型の深層学習モデル、Geneformerを開発しました。事前学習中に、Geneformerはネットワークダイナミクスの基本的な理解を獲得し、完全に自己教師付き方式でモデルのアテンション重みにネットワーク階層をエンコードしました。限られたタスク固有のデータを使用して、クロマチンやネットワークダイナミクスに関連する多様な下流タスクに微調整することで、Geneformerは一貫して予測精度を向上させました。限られた患者データを用いた疾患モデリングに適用すると、Geneformerは心筋症の候補治療標的を特定しました。全体として、Geneformerは、広範な下流アプリケーションに微調整することで、重要なネットワーク調節因子や候補治療標的の発見を加速することができる事前学習された深層学習モデルを表しています。
🔧 技術詳細
このREADMEには具体的な技術詳細が記載されていないため、このセクションをスキップします。
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下でライセンスされています。
参考文献
TDC引用
@inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Xiang Lin and Kexin Huang and Michelle M Li and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}
追加引用
- C V Theodoris#, L Xiao, A Chopra, M D Chaffin, Z R Al Sayed, M C Hill, H Mantineo, E Brydon, Z Zeng, X S Liu, P T Ellinor#. Transfer learning enables predictions in network biology. Nature, 31 May 2023. (#co-corresponding authors)
- H Chen*, M S Venkatesh*, J Gomez Ortega, S V Mahesh, T Nandi, R Madduri, K Pelka†, C V Theodoris†#. Quantized multi-task learning for context-specific representations of gene network dynamics. bioRxiv, 19 Aug 2024. (*co-first authors, †co-senior authors, #corresponding author)
モデルのHFホームページ
https://huggingface.co/ctheodoris/Geneformer
注意事項
私たちは、TDCでGeneformerの20L-95M-i4096リリースを使用しています。このモデルは、Genecorpusの95Mバージョンで学習されています。