🚀 Geneformer
Geneformerは、ネットワーク生物学におけるデータが限られた環境で文脈を考慮した予測を可能にするために、単一細胞トランスクリプトームの大規模コーパスで事前学習された基礎的なトランスフォーマーモデルです。
🚀 クイックスタート
Geneformerは、広範なヒト組織を代表する単一細胞トランスクリプトームの大規模コーパスで事前学習された基礎的なトランスフォーマーモデルです。このモデルは、エピジェネティクスやネットワークダイナミクスに関連する下流タスクでの予測精度を向上させることができます。
✨ 主な機能
- 大規模な単一細胞トランスクリプトームコーパスで事前学習されたトランスフォーマーモデル。
- ゼロショット学習と限られたタスク固有データでのファインチューニングにより、下流タスクの予測精度を向上。
- シリコン上での摂動解析や治療法の提案など、様々なアプリケーションに対応。
📦 インストール
事前学習済みモデルに加え、単一細胞トランスクリプトミクスに特化したデータのトークン化、照合、モデルの事前学習、ファインチューニング、細胞埋め込みの抽出とプロット、事前学習またはファインチューニングされたモデルを使用したシリコン上での摂動解析などの機能が含まれています。インストールには約20秒かかります。
git lfs install
git clone https://huggingface.co/ctheodoris/Geneformer
cd Geneformer
pip install .
使用方法については、examplesを参照してください。
⚠️ 重要提示
Geneformerを効率的に使用するにはGPUリソースが必要です。また、各下流のファインチューニングアプリケーションに対してハイパーパラメータを調整することを強くおすすめします。これにより、下流タスクでの予測能力を大幅に向上させることができます。
💻 使用例
基本的な使用法
使用方法の詳細については、examplesを参照してください。
高度な使用法
高度な使用法や応用例については、our manuscriptを参照してください。
📚 ドキュメント
🔧 技術詳細
モデルの概要
Geneformerは、広範なヒト組織を代表する単一細胞トランスクリプトームの大規模コーパスで事前学習された基礎的なトランスフォーマーモデルです。元々は2021年6月に、約3000万の単一細胞トランスクリプトームから構成されるGenecorpus - 30Mで事前学習されました。高い突然変異負荷を持つ細胞(例:悪性細胞や不死化細胞株)は除外され、ゲノム配列解析なしでの解釈を容易にしています。2024年4月には、約9500万の非癌トランスクリプトームで事前学習され、その後約1400万の癌トランスクリプトームで継続学習され、癌ドメインに特化したモデルが得られました。
ランク値エンコーディング
各単一細胞のトランスクリプトームは、ランク値エンコーディングとしてモデルに入力されます。ここでは、各細胞内での遺伝子の発現を、Genecorpus - 30M全体での発現でスケーリングしてランク付けします。このランク値エンコーディングは、その細胞のトランスクリプトームの非パラメトリック表現を提供し、事前学習コーパス全体での各遺伝子の発現の多くの観測値を利用して、細胞状態を区別する遺伝子を優先します。具体的には、遍在的に高発現するハウスキーピング遺伝子は低いランクにスケーリングされ、逆に転写因子などの低発現でも細胞状態を区別する遺伝子はエンコーディング内で高いランクに移動します。さらに、このランクベースのアプローチは、技術的なアーティファクトに対してよりロバストであり、各細胞内の遺伝子の全体的な相対ランキングは比較的安定しています。
事前学習
各単一細胞のトランスクリプトームのランク値エンコーディングは、トランスフォーマーエンコーダーユニットのN層を通過します。Nはモデルサイズによって異なります。事前学習は、マスクされた学習目標を使用して行われます。各トランスクリプトーム内の15%の遺伝子がマスクされ、モデルは残りの非マスク遺伝子の文脈を使用して、その特定の細胞状態で各マスク位置にどの遺伝子があるべきかを予測するように訓練されます。このアプローチの主な強みは、完全に自己教師付きであり、ラベル付けされていないデータで実行できることです。これにより、大量の訓練データをラベル付きサンプルに制限されることなく含めることができます。
📄 ライセンス
📚 引用
- C V Theodoris#, L Xiao, A Chopra, M D Chaffin, Z R Al Sayed, M C Hill, H Mantineo, E Brydon, Z Zeng, X S Liu, P T Ellinor#. Transfer learning enables predictions in network biology. Nature, 31 May 2023. (#co - corresponding authors)
- H Chen*, M S Venkatesh*, J Gomez Ortega, S V Mahesh, T Nandi, R Madduri, K Pelka†, C V Theodoris†#. Quantized multi - task learning for context - specific representations of gene network dynamics. bioRxiv, 19 Aug 2024. (*co - first authors, †co - senior authors, #corresponding author)
モデル情報
属性 |
详情 |
データセット |
ctheodoris/Genecorpus - 30M |
モデルタイプ |
事前学習されたトランスフォーマーモデル |
学習データ |
2021年6月:約3000万の単一細胞トランスクリプトーム 2024年4月:約9500万の非癌トランスクリプトーム、約1400万の癌トランスクリプトーム |
ライセンス |
apache - 2.0 |
タグ |
single - cell, genomics |
事前学習済みモデル
L = レイヤー数
M = 事前学習に使用された細胞の数百万単位の数
i = 入力サイズ
(事前学習日)
- GF - 6L - 30M - i2048 (2021年6月)
- GF - 12L - 30M - i2048 (2021年6月)
- GF - 12L - 95M - i4096 (2024年4月)
- GF - 20L - 95M - i4096 (2024年4月)
現在のリポジトリのメインディレクトリにあるデフォルトモデルはGF - 12L - 95M - i4096です。また、リポジトリにはfine_tuned_modelsディレクトリにファインチューニングされたモデルと、約1400万の癌細胞で継続学習された癌ドメイン特化モデルGF - 12L - 95M - i4096_CLcancerも含まれています。