🚀 Geneformer
Geneformer是一個基於Transformer的基礎模型,它在大規模單細胞轉錄組語料庫上進行預訓練,能夠在網絡生物學中數據有限的情況下進行上下文感知預測,為相關研究提供有力支持。
🚀 快速開始
Geneformer是一個在大規模單細胞轉錄組語料庫上預訓練的基礎Transformer模型,可在網絡生物學數據有限的環境中實現上下文感知預測。
✨ 主要特性
- 大規模預訓練:在包含廣泛人類組織的大規模單細胞轉錄組語料庫上進行預訓練。
- 上下文感知預測:能夠在數據有限的網絡生物學環境中進行上下文感知預測。
- 多種應用場景:支持零樣本學習和微調,可應用於染色質和網絡動力學相關的下游任務。
📦 安裝指南
除了預訓練模型外,這裡還包含用於單細胞轉錄組數據的分詞和整理、模型預訓練、模型微調、提取和繪製細胞嵌入以及使用預訓練或微調模型進行計算機模擬擾動的函數。安裝步驟如下(約20秒):
git lfs install
git clone https://huggingface.co/ctheodoris/Geneformer
cd Geneformer
pip install .
有關使用方法,請參閱示例,包括:
- 轉錄組分詞
- 預訓練
- 超參數調整
- 微調
- 提取和繪製細胞嵌入
- 計算機模擬擾動
請注意,微調示例通常具有通用性,輸入數據集和標籤將根據下游任務而有所不同。論文中展示的一些下游任務的示例輸入文件位於數據集倉庫的example_input_files目錄中,但這些僅代表少數示例微調應用。
請注意,高效使用Geneformer需要GPU資源。此外,我們強烈建議為每個下游微調應用調整超參數,因為這可以顯著提高下游任務的預測潛力(例如,最大學習率、學習計劃、凍結層數等)。
📚 詳細文檔
模型描述
Geneformer是一個在大規模單細胞轉錄組語料庫上預訓練的基礎Transformer模型,該語料庫代表了廣泛的人類組織。Geneformer最初於2021年6月在Genecorpus - 30M上進行預訓練,該語料庫包含約3000萬個單細胞轉錄組。為便於解釋,我們排除了具有高突變負擔的細胞(例如惡性細胞和永生化細胞系),因為這些細胞可能導致實質性的網絡重連,而無需伴隨基因組測序。然後,在2024年4月,Geneformer在約9500萬個非癌轉錄組上進行預訓練,隨後在約1400萬個癌轉錄組上進行持續學習,以得到癌症領域調優的模型。
每個單細胞的轉錄組以排名值編碼的形式呈現給模型,其中基因根據其在該細胞中的表達進行排名,並通過其在整個Genecorpus - 30M中的表達進行縮放。排名值編碼提供了該細胞轉錄組的非參數表示,並利用了預訓練語料庫中每個基因表達的大量觀察結果,以優先考慮區分細胞狀態的基因。具體而言,這種方法會通過將普遍高表達的管家基因縮放到較低排名來降低其優先級。相反,像轉錄因子這樣的基因,當它們表達時可能表達量較低,但能高度區分細胞狀態,將在編碼中移動到較高排名。此外,這種基於排名的方法可能對技術偽影更具魯棒性,這些偽影可能會系統性地影響絕對轉錄計數的值,而每個細胞內基因的整體相對排名保持更穩定。
每個單細胞轉錄組的排名值編碼然後通過N層Transformer編碼器單元,其中N根據模型大小而變化。預訓練使用掩碼學習目標完成,其中每個轉錄組中15%的基因被掩碼,模型被訓練使用其餘未掩碼基因的上下文來預測在該特定細胞狀態下每個掩碼位置應該是哪個基因。這種方法的一個主要優點是它完全是自監督的,並且可以在完全未標記的數據上完成,這允許包含大量的訓練數據,而不受限於帶有伴隨標籤的樣本。
我們在我們的論文中詳細介紹了應用和結果。
在預訓練期間,Geneformer獲得了對網絡動力學的基本理解,以完全自監督的方式在模型的注意力權重中編碼網絡層次結構。通過零樣本學習和使用有限的特定任務數據進行微調,Geneformer在與染色質和網絡動力學相關的各種下游任務中持續提高了預測準確性。使用零樣本學習的計算機模擬擾動在心肌細胞中識別出一種新的轉錄因子,我們通過實驗驗證了該轉錄因子對心肌細胞產生收縮力的能力至關重要。使用有限患者數據的計算機模擬治療揭示了心肌病的候選治療靶點,我們通過實驗驗證了這些靶點在該疾病的誘導多能幹細胞(iPSC)模型中顯著提高了心肌細胞產生收縮力的能力。總體而言,Geneformer代表了一個在大規模人類單細胞轉錄組語料庫上預訓練的基礎深度學習模型,以獲得對基因網絡動力學的基本理解,現在可以將其推廣到大量下游任務中,以加速關鍵網絡調節因子和候選治療靶點的發現。
該倉庫包含以下預訓練模型:
L = 層數
M = 用於預訓練的細胞數百萬個
i = 輸入大小
(預訓練日期)
- GF - 6L - 30M - i2048 (2021年6月)
- GF - 12L - 30M - i2048 (2021年6月)
- GF - 12L - 95M - i4096 (2024年4月)
- GF - 20L - 95M - i4096 (2024年4月)
倉庫主目錄中的當前默認模型是GF - 12L - 95M - i4096。
該倉庫還在fine_tuned_models目錄中包含微調模型,以及在約1400萬個癌細胞上進行持續學習後的癌症調優模型GF - 12L - 95M - i4096_CLcancer。
應用
預訓練的Geneformer模型可直接用於零樣本學習,例如計算機模擬擾動分析,或通過針對相關下游任務進行微調,如基因或細胞狀態分類。
我們的論文中展示的示例應用包括:
微調:
- 轉錄因子劑量敏感性
- 染色質動力學(雙價標記啟動子)
- 轉錄因子調節範圍
- 基因網絡中心性
- 轉錄因子靶點
- 細胞類型註釋
- 批次整合
- 跨分化的細胞狀態分類
- 疾病分類
- 計算機模擬擾動以確定疾病驅動基因
- 計算機模擬治療以確定候選治療靶點
零樣本學習:
- 批次整合
- 基因上下文特異性
- 計算機模擬重編程
- 計算機模擬分化
- 計算機模擬擾動以確定對細胞狀態的影響
- 計算機模擬擾動以確定轉錄因子靶點
- 計算機模擬擾動以確定轉錄因子協同作用
📄 許可證
本項目採用Apache - 2.0許可證。
📚 引用
- C V Theodoris#, L Xiao, A Chopra, M D Chaffin, Z R Al Sayed, M C Hill, H Mantineo, E Brydon, Z Zeng, X S Liu, P T Ellinor#. Transfer learning enables predictions in network biology. Nature, 2023年5月31日。(#共同通訊作者)
- H Chen*, M S Venkatesh*, J Gomez Ortega, S V Mahesh, T Nandi, R Madduri, K Pelka†, C V Theodoris†#. Quantized multi - task learning for context - specific representations of gene network dynamics. bioRxiv, 2024年8月19日。(*共同第一作者,†共同資深作者,#通訊作者)
屬性 |
詳情 |
數據集 |
ctheodoris/Genecorpus - 30M |
許可證 |
apache - 2.0 |
標籤 |
single - cell, genomics |
⚠️ 重要提示
高效使用Geneformer需要GPU資源。此外,為每個下游微調應用調整超參數可以顯著提高下游任務的預測潛力。
💡 使用建議
微調示例通常具有通用性,輸入數據集和標籤將根據下游任務而有所不同。請根據具體任務調整輸入數據。