TITAN開源多模態模型 - 免費用於病理學圖像分析，助力醫療診斷！

首頁

TITAN

由MahmoodLab開發

TITAN是一個多模態全切片基礎模型，通過視覺自監督學習和視覺-語言對齊進行預訓練，用於病理學圖像分析。

多模態融合

Safetensors

英語#病理學多模態 #全切片分析 #視覺-語言對齊

下載量 213.39k

發布時間 : 12/2/2024

模型概述

TITAN是一個預訓練的視覺-語言編碼器，專門用於病理學全切片圖像的特徵提取和多模態對齊。它整合了335,645張全切片圖像和大量病理報告數據，在多樣化下游任務中表現出色。

模型特點

多模態預訓練

整合了視覺自監督學習和視覺-語言對齊，同時處理圖像和文本數據

大規模數據集

使用了335,645張涵蓋多種病理類型的全切片圖像和大量病理報告數據

多樣化應用能力

支持線性探測、少樣本和零樣本分類、罕見癌症檢索、跨模態檢索等多種任務

高性能表現

在多種下游任務中實現了最先進的性能

模型能力

病理圖像特徵提取

病理圖像分類

跨模態檢索

病理報告生成

罕見癌症識別

零樣本學習

使用案例

醫學診斷

腫瘤分類

對病理切片進行腫瘤類型分類

在多種癌症類型分類任務中表現優異

罕見癌症識別

識別罕見類型的癌症

在罕見癌症檢索任務中表現突出

醫學研究

病理報告生成

根據病理圖像生成描述性報告

能夠生成準確的病理描述

跨模態檢索

根據文本描述檢索相關病理圖像

實現了高效的圖像-文本匹配

🚀 TITAN-preview模型介紹

TITAN-preview 是一個基於Transformer的多模態全切片基礎模型，通過視覺自監督學習和視覺 - 語言對齊進行預訓練。它利用了大量的全切片圖像和病理報告，在多種下游任務中取得了先進的性能。本模型僅用於非商業的學術研究目的。

🚀 快速開始

模型訪問

要訪問該模型，你需要同意使用條款，並且Hugging Face賬戶的主郵箱必須與你的機構郵箱一致。如果主郵箱是個人郵箱（如 @gmail/@hotmail/@qq），請求將被拒絕。你可以通過以下步驟解決：

將你的官方機構郵箱添加到Hugging Face賬戶，並確認郵箱地址以進行驗證。
將機構郵箱設置為Hugging Face賬戶的主郵箱。

若提交的表單存在其他錯誤，如全名包含縮寫、所屬機構未完整拼寫、描述的研究用途不充分或郵箱域名未被認可，訪問請求也會被拒絕。

模型使用

環境要求

torch==2.0.1
timm==1.0.3
einops==0.6.1
einops-exts==0.0.4
transformers==4.46.0

加載模型

from huggingface_hub import login
from transformers import AutoModel 

login()  # 使用你的用戶訪問令牌登錄，令牌可在 https://huggingface.co/settings/tokens 找到

titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)
conch, eval_transform = titan.return_conch()

幻燈片級特徵提取

import h5py
from transformers import AutoModel

# 加載模型
titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)

# 加載CONCH v1.5演示特徵
h5_path = 'TCGA_demo_features/TCGA-RM-A68W-01Z-00-DX1.4E62E4F4-415C-46EB-A6C8-45BA14E82708.h5'
with h5py.File(h5_path, 'r') as file:
    features = torch.from_numpy(file['features'][:])
    coords = torch.from_numpy(file['coords'][:])
    patch_size_lv0 = file['coords'].attrs['patch_size_level0']

# 提取幻燈片嵌入
with torch.autocast('cuda', torch.float16), torch.inference_mode():
    slide_embedding = model.encode_slide_from_patch_features(features, coords, patch_size_lv0)

這些預提取的特徵可用於幻燈片級分類（通過線性探測）、檢索（通過l2距離）和其他機器學習場景，無需進行特定任務的微調。

我們還在 TCGA_TITAN_features.pkl 中發佈了所有TCGA TITAN-preview特徵。更多詳細的線性探測和零樣本評估可在我們的 GitHub 上查看。

✨ 主要特性

多模態基礎模型：TITAN（基於Transformer的病理圖像和文本對齊網絡）是一個多模態全切片基礎模型，通過視覺自監督學習和視覺 - 語言對齊進行預訓練。
豐富的數據利用：利用了來自馬薩諸塞州綜合醫院布萊根婦女醫院的335,645張全切片圖像（WSIs），以及超過182,000份病理報告和由 PathChat 生成的423,000多個合成標題。
先進的性能：TITAN的幻燈片嵌入在多種下游任務中實現了最先進的性能，包括線性探測、少樣本和零樣本分類、罕見癌症檢索、跨模態檢索和病理報告生成。

📦 安裝指南

模型使用前需要安裝以下依賴：

torch==2.0.1
timm==1.0.3
einops==0.6.1
einops-exts==0.0.4
transformers==4.46.0

💻 使用示例

基礎用法

from huggingface_hub import login
from transformers import AutoModel 

login()  # 使用你的用戶訪問令牌登錄，令牌可在 https://huggingface.co/settings/tokens 找到

titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)
conch, eval_transform = titan.return_conch()

高級用法

import h5py
from transformers import AutoModel

# 加載模型
titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)

# 加載CONCH v1.5演示特徵
h5_path = 'TCGA_demo_features/TCGA-RM-A68W-01Z-00-DX1.4E62E4F4-415C-46EB-A6C8-45BA14E82708.h5'
with h5py.File(h5_path, 'r') as file:
    features = torch.from_numpy(file['features'][:])
    coords = torch.from_numpy(file['coords'][:])
    patch_size_lv0 = file['coords'].attrs['patch_size_level0']

# 提取幻燈片嵌入
with torch.autocast('cuda', torch.float16), torch.inference_mode():
    slide_embedding = model.encode_slide_from_patch_features(features, coords, patch_size_lv0)

📚 詳細文檔

模型描述

屬性	詳情
模型類型	預訓練的視覺 - 語言編碼器
訓練數據	Mass-340K，來自私人組織學收藏（BWH / MGH），以及公共GTEx聯盟的切片
倉庫地址	https://github.com/mahmoodlab/TITAN
預印本	https://arxiv.org/abs/2411.19666
許可證	CC-BY-NC-ND-4.0

模型使用說明

TITAN-preview是一個在CONCH v1.5補丁特徵上訓練的視覺 - 語言模型，補丁大小為512x512像素，放大倍數為20x。

注意事項

⚠️ 重要提示

本模型和相關代碼根據CC-BY-NC-ND 4.0許可證發佈，僅可用於非商業的學術研究目的，並需進行適當的引用。任何商業使用、銷售或對TITAN模型及其衍生產品（包括在TITAN模型輸出上訓練的模型或由TITAN模型創建的數據集）的其他貨幣化行為均被禁止，需要事先獲得批准。下載模型需要事先在Hugging Face上註冊並同意使用條款。下載此模型即表示你同意不分發、發佈或複製該模型的副本。如果你所在組織的其他用戶希望使用TITAN模型，他們必須作為個人用戶註冊並同意遵守使用條款。用戶不得嘗試重新識別用於開發基礎模型的去標識化數據。如果你是商業實體，請聯繫相應的作者。

🔧 技術細節

TITAN利用視覺自監督學習和視覺 - 語言對齊進行預訓練。它從CONCH v1.5補丁特徵構建特徵網格，使用補丁的座標和距離。補丁座標始終保存在幻燈片的0級放大倍數下，TITAN採用 patch_size_lv0 表示在0級放大倍數下兩個相鄰補丁之間的距離。如果幻燈片為40x，則為1024；如果為20x，則為512。

📄 許可證

本模型和相關代碼根據CC-BY-NC-ND 4.0許可證發佈。具體使用限制請參考上文的重要提示。

📞 聯繫信息

如有任何額外問題或建議，請聯繫以下人員：

Faisal Mahmood (faisalmahmood@bwh.harvard.edu)
Tong Ding (tong_ding@g.harvard.edu)
Sophia J. Wagner (sophia.wagner@helmholtz-munich.de)
Andrew H. Song (asong@bwh.harvard.edu)
Richard J. Chen (richardchen@g.harvard.edu)

🙏 致謝

本項目基於許多優秀的代碼庫構建，如 ViT、iBOT、OpenClip、LGSSL 和 Timm（ViT模型實現）。感謝這些作者和開發者的貢獻。

📑 引用信息

如果你在研究中發現我們的工作有用，請考慮引用我們的論文：

Ding, T.*, Wagner S.J.*, Song, A.H.*, Chen, R.J.* 等。Multimodal Whole Slide Foundation Model for Pathology, Arxiv, 2024

@misc{ding2024multimodalslidefoundationmodel,
      title={Multimodal Whole Slide Foundation Model for Pathology}, 
      author={Tong Ding and Sophia J. Wagner and Andrew H. Song and Richard J. Chen and Ming Y. Lu and Andrew Zhang and Anurag J. Vaidya and Guillaume Jaume and Muhammad Shaban and Ahrong Kim and Drew F. K. Williamson and Bowen Chen and Cristina Almagro-Perez and Paul Doucet and Sharifa Sahai and Chengkuan Chen and Daisuke Komura and Akihiro Kawabe and Shumpei Ishikawa and Georg Gerber and Tingying Peng and Long Phi Le and Faisal Mahmood},
      year={2024},
      eprint={2411.19666},
      archivePrefix={arXiv},
      primaryClass={eess.IV},
      url={https://arxiv.org/abs/2411.19666}, 
}