Conceptclip
模型概述
該模型通過概念強化的語言-圖像對齊機制,適用於醫學影像分析、分類和跨模態檢索等任務。
模型特點
醫學概念增強
通過大規模醫學概念標註增強視覺語言對齊能力
多模態支持
支持CT、MRI、X光等多種醫學影像模態
零樣本學習
無需微調即可在新醫學任務上表現良好
可解釋性
通過概念瓶頸提供可解釋的預測結果
模型能力
醫學影像分類
跨模態檢索
概念標註
特徵提取
零樣本學習
使用案例
醫學影像分析
胸部X光分類
對胸部X光片進行零樣本分類
腦部MRI分析
識別腦部MRI中的異常區域
臨床決策支持
輔助診斷
為醫生提供影像分析參考
醫學教育
教學工具
用於醫學影像教學和培訓
🚀 ConceptCLIP 模型卡片
ConceptCLIP 是一個針對多種醫學圖像模態,融入醫學概念進行增強的大規模視覺 - 語言預訓練模型。它通過概念增強的語言 - 圖像對齊,在多個醫學成像任務中實現了強大的性能。
🚀 快速開始
以下是使用 ConceptCLIP 模型的示例代碼:
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
✨ 主要特性
模型詳情
- 開發者:Yuxiang Nie, Sunan He, Yequan Bie, Yihui Wang, Zhixuan Chen, Shu Yang, Zhiyuan Cai, Hongmei Wang, Xi Wang, Luyang Luo, Mingxiang Wu, Xian Wu, Ronald Cheong Kin Chan, Yuk Ming Lau, Yefeng Zheng, Pranav Rajpurkar, Hao Chen
- 模型類型:視覺 - 語言預訓練模型(醫學專用)
- 語言支持:英語(文本),多模態(醫學成像)
- 許可證:MIT
- 微調基礎模型:基於 OpenCLIP
模型來源
- 倉庫地址:GitHub 項目
- 論文地址:An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training
- 演示地址:Hugging Face 模型中心
應用場景
直接應用
- 零樣本醫學圖像分類
- 跨模態檢索
- 零樣本概念標註
- 提取全切片圖像分析的特徵
- 提取醫學報告生成的特徵
下游應用
- 針對特定醫學成像任務(CT、MRI、X光分析)進行微調,用於分類和視覺問答
- 用於解釋的概念瓶頸模型
- 集成到臨床決策支持系統中
- 醫學教育和培訓工具
不適用場景
- 未經臨床驗證的直接臨床診斷
- 非醫學圖像分析
- 醫學領域之外的通用視覺任務
偏差、風險和侷限性
- 主要基於醫學成像數據進行訓練,可能存在人口統計學偏差
- 在不同的醫學成像模態上性能可能會有所不同
- 未經人工監督,不應作為唯一的診斷工具
建議
- 在進行醫學決策之前,與臨床專家一起驗證輸出結果
- 針對特定應用在特定領域的數據上進行微調
- 在新的臨床環境中部署時進行偏差分析
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
📚 詳細文檔
訓練詳情
訓練數據
- 包含概念信息的大規模醫學圖像 - 文本對
訓練過程
- 基於 OpenCLIP 架構,集成了醫學概念
- 以圖像 - 文本對齊(IT - 對齊)和區域 - 概念對齊(RC - 對齊)為目標進行預訓練
訓練超參數
- 基礎架構:SigLIP - ViT - 400M - 16 + PubMedBERT
- 訓練機制:混合精度訓練
- 批量大小:無 PC - 對齊時為 12,288,有 PC - 對齊時為 6,144
- 學習率:無 PC - 對齊時為 5e - 4,有 PC - 對齊時為 3e - 4
評估
測試數據與指標
測試數據
- 在多個開源醫學成像基準上進行評估,包括醫學圖像診斷、跨模態檢索、醫學視覺問答、醫學報告生成、全切片圖像分析和可解釋人工智能
🔧 技術細節
- 模型基於 OpenCLIP 架構構建,集成了醫學概念,通過圖像 - 文本對齊和區域 - 概念對齊目標進行預訓練。
- 訓練採用混合精度訓練,不同的訓練設置有不同的批量大小和學習率。
📄 許可證
本模型使用 MIT 許可證。
引用
BibTeX:
@article{nie2025conceptclip,
title={An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training},
author={Nie, Yuxiang and He, Sunan and Bie, Yequan and Wang, Yihui and Chen, Zhixuan and Yang, Shu and Cai, Zhiyuan and Wang, Hongmei and Wang, Xi and Luo, Luyang and Wu, Mingxiang and Wu, Xian and Chan, Ronald Cheong Kin and Lau, Yuk Ming and Zheng, Yefeng and Rajpurkar, Pranav and Chen, Hao},
journal={arXiv preprint arXiv:2501.15579},
year={2025}
}
APA: Nie, Y., He, S., Bie, Y., Wang, Y., Chen, Z., Yang, S., Cai, Z., Wang, H., Wang, X., Luo, L., Wu, M., Wu, X., Chan, R. C. K., Lau, Y. M., Zheng, Y., Rajpurkar, P., & Chen, H. (2025). An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training. arXiv preprint arXiv:2501.15579.
模型卡片聯繫方式
Yuxiang Nie: ynieae@connect.ust.hk
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98