Conceptclip
模型简介
该模型通过概念强化的语言-图像对齐机制,适用于医学影像分析、分类和跨模态检索等任务。
模型特点
医学概念增强
通过大规模医学概念标注增强视觉语言对齐能力
多模态支持
支持CT、MRI、X光等多种医学影像模态
零样本学习
无需微调即可在新医学任务上表现良好
可解释性
通过概念瓶颈提供可解释的预测结果
模型能力
医学影像分类
跨模态检索
概念标注
特征提取
零样本学习
使用案例
医学影像分析
胸部X光分类
对胸部X光片进行零样本分类
脑部MRI分析
识别脑部MRI中的异常区域
临床决策支持
辅助诊断
为医生提供影像分析参考
医学教育
教学工具
用于医学影像教学和培训
🚀 ConceptCLIP 模型卡片
ConceptCLIP 是一个针对多种医学图像模态,融入医学概念进行增强的大规模视觉 - 语言预训练模型。它通过概念增强的语言 - 图像对齐,在多个医学成像任务中实现了强大的性能。
🚀 快速开始
以下是使用 ConceptCLIP 模型的示例代码:
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
✨ 主要特性
模型详情
- 开发者:Yuxiang Nie, Sunan He, Yequan Bie, Yihui Wang, Zhixuan Chen, Shu Yang, Zhiyuan Cai, Hongmei Wang, Xi Wang, Luyang Luo, Mingxiang Wu, Xian Wu, Ronald Cheong Kin Chan, Yuk Ming Lau, Yefeng Zheng, Pranav Rajpurkar, Hao Chen
- 模型类型:视觉 - 语言预训练模型(医学专用)
- 语言支持:英语(文本),多模态(医学成像)
- 许可证:MIT
- 微调基础模型:基于 OpenCLIP
模型来源
- 仓库地址:GitHub 项目
- 论文地址:An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training
- 演示地址:Hugging Face 模型中心
应用场景
直接应用
- 零样本医学图像分类
- 跨模态检索
- 零样本概念标注
- 提取全切片图像分析的特征
- 提取医学报告生成的特征
下游应用
- 针对特定医学成像任务(CT、MRI、X光分析)进行微调,用于分类和视觉问答
- 用于解释的概念瓶颈模型
- 集成到临床决策支持系统中
- 医学教育和培训工具
不适用场景
- 未经临床验证的直接临床诊断
- 非医学图像分析
- 医学领域之外的通用视觉任务
偏差、风险和局限性
- 主要基于医学成像数据进行训练,可能存在人口统计学偏差
- 在不同的医学成像模态上性能可能会有所不同
- 未经人工监督,不应作为唯一的诊断工具
建议
- 在进行医学决策之前,与临床专家一起验证输出结果
- 针对特定应用在特定领域的数据上进行微调
- 在新的临床环境中部署时进行偏差分析
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
📚 详细文档
训练详情
训练数据
- 包含概念信息的大规模医学图像 - 文本对
训练过程
- 基于 OpenCLIP 架构,集成了医学概念
- 以图像 - 文本对齐(IT - 对齐)和区域 - 概念对齐(RC - 对齐)为目标进行预训练
训练超参数
- 基础架构:SigLIP - ViT - 400M - 16 + PubMedBERT
- 训练机制:混合精度训练
- 批量大小:无 PC - 对齐时为 12,288,有 PC - 对齐时为 6,144
- 学习率:无 PC - 对齐时为 5e - 4,有 PC - 对齐时为 3e - 4
评估
测试数据与指标
测试数据
- 在多个开源医学成像基准上进行评估,包括医学图像诊断、跨模态检索、医学视觉问答、医学报告生成、全切片图像分析和可解释人工智能
🔧 技术细节
- 模型基于 OpenCLIP 架构构建,集成了医学概念,通过图像 - 文本对齐和区域 - 概念对齐目标进行预训练。
- 训练采用混合精度训练,不同的训练设置有不同的批量大小和学习率。
📄 许可证
本模型使用 MIT 许可证。
引用
BibTeX:
@article{nie2025conceptclip,
title={An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training},
author={Nie, Yuxiang and He, Sunan and Bie, Yequan and Wang, Yihui and Chen, Zhixuan and Yang, Shu and Cai, Zhiyuan and Wang, Hongmei and Wang, Xi and Luo, Luyang and Wu, Mingxiang and Wu, Xian and Chan, Ronald Cheong Kin and Lau, Yuk Ming and Zheng, Yefeng and Rajpurkar, Pranav and Chen, Hao},
journal={arXiv preprint arXiv:2501.15579},
year={2025}
}
APA: Nie, Y., He, S., Bie, Y., Wang, Y., Chen, Z., Yang, S., Cai, Z., Wang, H., Wang, X., Luo, L., Wu, M., Wu, X., Chan, R. C. K., Lau, Y. M., Zheng, Y., Rajpurkar, P., & Chen, H. (2025). An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training. arXiv preprint arXiv:2501.15579.
模型卡片联系方式
Yuxiang Nie: ynieae@connect.ust.hk
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98