模型概述
模型特點
模型能力
使用案例
🚀 TITAN-preview模型介紹
TITAN-preview 是一個基於Transformer的多模態全切片基礎模型,通過視覺自監督學習和視覺 - 語言對齊進行預訓練。它利用了大量的全切片圖像和病理報告,在多種下游任務中取得了先進的性能。本模型僅用於非商業的學術研究目的。
🚀 快速開始
模型訪問
要訪問該模型,你需要同意使用條款,並且Hugging Face賬戶的主郵箱必須與你的機構郵箱一致。如果主郵箱是個人郵箱(如 @gmail/@hotmail/@qq),請求將被拒絕。你可以通過以下步驟解決:
- 將你的官方機構郵箱添加到Hugging Face賬戶,並確認郵箱地址以進行驗證。
- 將機構郵箱設置為Hugging Face賬戶的主郵箱。
若提交的表單存在其他錯誤,如全名包含縮寫、所屬機構未完整拼寫、描述的研究用途不充分或郵箱域名未被認可,訪問請求也會被拒絕。
模型使用
環境要求
torch==2.0.1
timm==1.0.3
einops==0.6.1
einops-exts==0.0.4
transformers==4.46.0
加載模型
from huggingface_hub import login
from transformers import AutoModel
login() # 使用你的用戶訪問令牌登錄,令牌可在 https://huggingface.co/settings/tokens 找到
titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)
conch, eval_transform = titan.return_conch()
幻燈片級特徵提取
import h5py
from transformers import AutoModel
# 加載模型
titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)
# 加載CONCH v1.5演示特徵
h5_path = 'TCGA_demo_features/TCGA-RM-A68W-01Z-00-DX1.4E62E4F4-415C-46EB-A6C8-45BA14E82708.h5'
with h5py.File(h5_path, 'r') as file:
features = torch.from_numpy(file['features'][:])
coords = torch.from_numpy(file['coords'][:])
patch_size_lv0 = file['coords'].attrs['patch_size_level0']
# 提取幻燈片嵌入
with torch.autocast('cuda', torch.float16), torch.inference_mode():
slide_embedding = model.encode_slide_from_patch_features(features, coords, patch_size_lv0)
這些預提取的特徵可用於幻燈片級分類(通過線性探測)、檢索(通過l2距離)和其他機器學習場景,無需進行特定任務的微調。
我們還在 TCGA_TITAN_features.pkl
中發佈了所有TCGA TITAN-preview特徵。更多詳細的線性探測和零樣本評估可在我們的 GitHub 上查看。
✨ 主要特性
- 多模態基礎模型:TITAN(基於Transformer的病理圖像和文本對齊網絡)是一個多模態全切片基礎模型,通過視覺自監督學習和視覺 - 語言對齊進行預訓練。
- 豐富的數據利用:利用了來自馬薩諸塞州綜合醫院布萊根婦女醫院的335,645張全切片圖像(WSIs),以及超過182,000份病理報告和由 PathChat 生成的423,000多個合成標題。
- 先進的性能:TITAN的幻燈片嵌入在多種下游任務中實現了最先進的性能,包括線性探測、少樣本和零樣本分類、罕見癌症檢索、跨模態檢索和病理報告生成。
📦 安裝指南
模型使用前需要安裝以下依賴:
torch==2.0.1
timm==1.0.3
einops==0.6.1
einops-exts==0.0.4
transformers==4.46.0
💻 使用示例
基礎用法
from huggingface_hub import login
from transformers import AutoModel
login() # 使用你的用戶訪問令牌登錄,令牌可在 https://huggingface.co/settings/tokens 找到
titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)
conch, eval_transform = titan.return_conch()
高級用法
import h5py
from transformers import AutoModel
# 加載模型
titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)
# 加載CONCH v1.5演示特徵
h5_path = 'TCGA_demo_features/TCGA-RM-A68W-01Z-00-DX1.4E62E4F4-415C-46EB-A6C8-45BA14E82708.h5'
with h5py.File(h5_path, 'r') as file:
features = torch.from_numpy(file['features'][:])
coords = torch.from_numpy(file['coords'][:])
patch_size_lv0 = file['coords'].attrs['patch_size_level0']
# 提取幻燈片嵌入
with torch.autocast('cuda', torch.float16), torch.inference_mode():
slide_embedding = model.encode_slide_from_patch_features(features, coords, patch_size_lv0)
📚 詳細文檔
模型描述
屬性 | 詳情 |
---|---|
模型類型 | 預訓練的視覺 - 語言編碼器 |
訓練數據 | Mass-340K,來自私人組織學收藏(BWH / MGH),以及公共GTEx聯盟的切片 |
倉庫地址 | https://github.com/mahmoodlab/TITAN |
預印本 | https://arxiv.org/abs/2411.19666 |
許可證 | CC-BY-NC-ND-4.0 |
模型使用說明
TITAN-preview是一個在CONCH v1.5補丁特徵上訓練的視覺 - 語言模型,補丁大小為512x512像素,放大倍數為20x。
注意事項
⚠️ 重要提示
本模型和相關代碼根據CC-BY-NC-ND 4.0許可證發佈,僅可用於非商業的學術研究目的,並需進行適當的引用。任何商業使用、銷售或對TITAN模型及其衍生產品(包括在TITAN模型輸出上訓練的模型或由TITAN模型創建的數據集)的其他貨幣化行為均被禁止,需要事先獲得批准。下載模型需要事先在Hugging Face上註冊並同意使用條款。下載此模型即表示你同意不分發、發佈或複製該模型的副本。如果你所在組織的其他用戶希望使用TITAN模型,他們必須作為個人用戶註冊並同意遵守使用條款。用戶不得嘗試重新識別用於開發基礎模型的去標識化數據。如果你是商業實體,請聯繫相應的作者。
🔧 技術細節
TITAN利用視覺自監督學習和視覺 - 語言對齊進行預訓練。它從CONCH v1.5補丁特徵構建特徵網格,使用補丁的座標和距離。補丁座標始終保存在幻燈片的0級放大倍數下,TITAN採用 patch_size_lv0
表示在0級放大倍數下兩個相鄰補丁之間的距離。如果幻燈片為40x,則為1024;如果為20x,則為512。
📄 許可證
本模型和相關代碼根據CC-BY-NC-ND 4.0許可證發佈。具體使用限制請參考上文的重要提示。
📞 聯繫信息
如有任何額外問題或建議,請聯繫以下人員:
- Faisal Mahmood (
faisalmahmood@bwh.harvard.edu
) - Tong Ding (
tong_ding@g.harvard.edu
) - Sophia J. Wagner (
sophia.wagner@helmholtz-munich.de
) - Andrew H. Song (
asong@bwh.harvard.edu
) - Richard J. Chen (
richardchen@g.harvard.edu
)
🙏 致謝
本項目基於許多優秀的代碼庫構建,如 ViT、iBOT、OpenClip、LGSSL 和 Timm(ViT模型實現)。感謝這些作者和開發者的貢獻。
📑 引用信息
如果你在研究中發現我們的工作有用,請考慮引用我們的論文:
Ding, T.*, Wagner S.J.*, Song, A.H.*, Chen, R.J.* 等。Multimodal Whole Slide Foundation Model for Pathology, Arxiv, 2024
@misc{ding2024multimodalslidefoundationmodel,
title={Multimodal Whole Slide Foundation Model for Pathology},
author={Tong Ding and Sophia J. Wagner and Andrew H. Song and Richard J. Chen and Ming Y. Lu and Andrew Zhang and Anurag J. Vaidya and Guillaume Jaume and Muhammad Shaban and Ahrong Kim and Drew F. K. Williamson and Bowen Chen and Cristina Almagro-Perez and Paul Doucet and Sharifa Sahai and Chengkuan Chen and Daisuke Komura and Akihiro Kawabe and Shumpei Ishikawa and Georg Gerber and Tingying Peng and Long Phi Le and Faisal Mahmood},
year={2024},
eprint={2411.19666},
archivePrefix={arXiv},
primaryClass={eess.IV},
url={https://arxiv.org/abs/2411.19666},
}









