模型概述
模型特點
模型能力
使用案例
🚀 CONCH模型介紹
CONCH(CONtrastive learning from Captions for Histopathology)是一款用於組織病理學的視覺語言基礎模型,它在目前最大的包含117萬個圖像-文本對的特定組織病理學視覺語言數據集上進行了預訓練。與其他視覺語言基礎模型相比,它在計算病理學的14項任務中表現出了最先進的性能,這些任務涵蓋圖像分類、文本到圖像和圖像到文本檢索、圖像描述以及組織分割等。
🚀 快速開始
安裝
使用pip安裝CONCH倉庫:
pip install git+https://github.com/Mahmoodlab/CONCH.git
加載模型
成功請求訪問權重後:
from conch.open_clip_custom import create_model_from_pretrained
model, preprocess = create_model_from_pretrained('conch_ViT-B-16', "hf_hub:MahmoodLab/conch", hf_auth_token="<your_user_access_token>")
注意,你可能需要通過 hf_auth_token=<your_token>
向 create_model_from_pretrained
提供Hugging Face用戶訪問令牌進行身份驗證。更多詳細信息請參閱 HF文檔。
或者,你可以手動下載檢查點,並按如下方式加載模型:
model, preprocess = create_model_from_pretrained('conch_ViT-B-16', "path/to/conch/pytorch_model.bin")
使用模型編碼圖像
import torch
from PIL import Image
image = Image.open("path/to/image.jpg")
image = preprocess(image).unsqueeze(0)
with torch.inference_mode():
image_embs = model.encode_image(image, proj_contrast=False, normalize=False)
這將為你提供投影頭和歸一化之前的圖像嵌入,適用於線性探測或在多實例學習框架下處理全切片圖像(WSIs)。
圖像 - 文本檢索任務
with torch.inference_mode():
image_embs = model.encode_image(image, proj_contrast=True, normalize=True)
text_embedings = model.encode_text(tokenized_prompts)
sim_scores = (image_embedings @ text_embedings.T).squeeze(0)
有關使用該模型進行各種任務的具體示例,請訪問 GitHub 倉庫。
✨ 主要特性
- 性能卓越:與其他視覺語言基礎模型相比,CONCH在計算病理學的14項任務中表現出了最先進的性能,涵蓋圖像分類、文本到圖像和圖像到文本檢索、圖像描述以及組織分割等。
- 適用範圍廣:與僅在蘇木精 - 伊紅(H&E)圖像上進行預訓練的流行自監督編碼器相比,CONCH可以為免疫組織化學(IHC)和特殊染色等非H&E染色圖像生成更有效的表示,並且可用於涉及組織病理學圖像和文本的各種下游任務。
- 數據無汙染風險:CONCH在預訓練時未使用大型公共組織學幻燈片集合,如TCGA、PAIP、GTEX等,這些集合常用於計算病理學的基準開發。因此,研究社區可以使用CONCH構建和評估病理學AI模型,同時將公共基準或私人組織病理學幻燈片集合的數據汙染風險降至最低。
📦 安裝指南
使用pip安裝CONCH倉庫:
pip install git+https://github.com/Mahmoodlab/CONCH.git
💻 使用示例
基礎用法
import torch
from PIL import Image
from conch.open_clip_custom import create_model_from_pretrained
# 加載模型
model, preprocess = create_model_from_pretrained('conch_ViT-B-16', "hf_hub:MahmoodLab/conch", hf_auth_token="<your_user_access_token>")
# 打開圖像
image = Image.open("path/to/image.jpg")
image = preprocess(image).unsqueeze(0)
# 編碼圖像
with torch.inference_mode():
image_embs = model.encode_image(image, proj_contrast=False, normalize=False)
高級用法
import torch
from PIL import Image
from conch.open_clip_custom import create_model_from_pretrained
# 加載模型
model, preprocess = create_model_from_pretrained('conch_ViT-B-16', "hf_hub:MahmoodLab/conch", hf_auth_token="<your_user_access_token>")
# 打開圖像
image = Image.open("path/to/image.jpg")
image = preprocess(image).unsqueeze(0)
# 圖像 - 文本檢索任務
with torch.inference_mode():
image_embs = model.encode_image(image, proj_contrast=True, normalize=True)
text_embedings = model.encode_text(tokenized_prompts)
sim_scores = (image_embedings @ text_embedings.T).squeeze(0)
📚 詳細文檔
模型詳情
- 開發者:Mahmood Lab AI for Pathology Lab @ Harvard/BWH
- 模型類型:預訓練的視覺 - 語言編碼器(視覺編碼器:ViT - B/16,9000萬個參數;文本編碼器:L12 - E768 - H12,1.1億個參數)
- 預訓練數據集:117萬個組織病理學圖像 - 文本對
- 倉庫地址:https://github.com/mahmoodlab/CONCH
- 論文鏈接:https://www.nature.com/articles/s41591 - 024 - 02856 - 4
- 許可證:CC - BY - NC - ND 4.0
注意:雖然原始的CONCH模型架構還包括一個使用CoCa的圖像描述損失進行訓練的多模態解碼器,但為了確保不會意外洩露專有數據或受保護的健康信息(PHI),我們已從公開發布的CONCH權重中移除了解碼器的權重。文本編碼器和視覺編碼器的權重保持不變,因此論文中呈現的所有關鍵任務(如圖像分類和圖像 - 文本檢索)的結果不受影響。CONCH作為組織病理學圖像和病理學相關文本的通用編碼器的能力也不受影響。
使用場景
該模型主要供研究人員使用,可用於計算病理學中的以下任務:
- 零樣本感興趣區域(ROI)分類
- 零樣本ROI圖像到文本和文本到圖像檢索
- 使用MI - Zero的零樣本全切片圖像(WSI)分類
- 使用線性探測/最近鄰探測/端到端微調進行ROI分類
- 使用多實例學習(MIL)進行WSI分類
🔧 技術細節
訓練數據
117萬個來自公開可用的PubMed Central Open Access(PMC - OA)和內部整理來源的人類組織病理學圖像 - 文本對。圖像包括H&E、IHC和特殊染色。
訓練機制
fp16自動混合精度
訓練目標
CoCa(圖像 - 文本對比損失 + 圖像描述損失)
硬件
8個Nvidia A100
訓練時長
約21.5小時
軟件
PyTorch 2.0,CUDA 11.7
📄 許可證
本模型和相關代碼根據CC - BY - NC - ND 4.0許可證發佈,僅可用於非商業的學術研究目的,並需進行適當的引用。任何對CONCH模型及其衍生產品(包括在CONCH模型輸出上訓練的模型或由CONCH模型創建的數據集)的商業使用、銷售或其他貨幣化行為均被禁止,需要事先獲得批准。下載模型需要事先在Hugging Face上註冊並同意使用條款。下載此模型即表示你同意不分發、發佈或複製該模型。如果你的組織內有其他用戶希望使用CONCH模型,他們必須作為獨立用戶進行註冊。用戶不得嘗試重新識別用於開發基礎模型的已去標識化數據。如果你是商業實體,請聯繫相應的作者。請注意,用於註冊Hugging Face賬戶的主要電子郵件必須與你的機構電子郵件匹配才能獲得批准。更多詳細信息包含在模型卡片中。
引用信息
@article{lu2024avisionlanguage,
title={A visual-language foundation model for computational pathology},
author={Lu, Ming Y and Chen, Bowen and Williamson, Drew FK and Chen, Richard J and Liang, Ivy and Ding, Tong and Jaume, Guillaume and Odintsov, Igor and Le, Long Phi and Gerber, Georg and others},
journal={Nature Medicine},
pages={863–874},
volume={30},
year={2024},
publisher={Nature Publishing Group}
}
聯繫信息
如有任何額外問題或意見,請聯繫Faisal Mahmood (faisalmahmood@bwh.harvard.edu
)、Ming Y. Lu (mlu16@bwh.harvard.edu
) 或Bowen Chen (bchen18@bwh.harvard.edu
)。
致謝
本項目基於一些優秀的倉庫構建,如 openclip(用於模型訓練)、timm(ViT模型實現)和 huggingface transformers(分詞)。我們感謝這些作者和開發者的貢獻。
相關鏈接
模型請求訪問說明
如受限提示中所述,你必須同意上述使用條款,且 Hugging Face賬戶的主要電子郵件必須與你的機構電子郵件匹配。如果你的主要電子郵件是個人電子郵件(如@gmail/@hotmail/@qq),你的請求將被拒絕。要解決此問題,你可以:(1) 將你的官方機構電子郵件添加到你的HF賬戶,並確認你的電子郵件地址進行驗證;(2) 將你的機構電子郵件設置為HF賬戶的主要電子郵件。請求訪問被拒絕的其他原因包括提交的表單中存在其他錯誤,例如:全名包含縮寫、所屬機構未完整拼寫、描述的研究用途不充分或電子郵件域名未被識別。








