🚀 PubMedCLIP模型卡
PubMedCLIP是CLIP在医学领域的微调版本,它能有效解决医学图像与文本的关联问题,为医学图像的理解和分析提供强大助力。
🚀 快速开始
你可以按照以下代码示例快速使用PubMedCLIP模型:
import requests
from PIL import Image
import matplotlib.pyplot as plt
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("flaviagiammarino/pubmed-clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("flaviagiammarino/pubmed-clip-vit-base-patch32")
url = "https://huggingface.co/flaviagiammarino/pubmed-clip-vit-base-patch32/resolve/main/scripts/input.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
text = ["Chest X-Ray", "Brain MRI", "Abdominal CT Scan"]
inputs = processor(text=text, images=image, return_tensors="pt", padding=True)
probs = model(**inputs).logits_per_image.softmax(dim=1).squeeze()
plt.subplots()
plt.imshow(image)
plt.title("".join([x[0] + ": " + x[1] + "\n" for x in zip(text, [format(prob, ".4%") for prob in probs])]))
plt.axis("off")
plt.tight_layout()
plt.show()

✨ 主要特性
PubMedCLIP是专门为医学领域微调的模型,基于大规模的医学影像数据集进行训练,能更好地处理医学图像和文本的关联任务。
📚 详细文档
模型描述
PubMedCLIP在Radiology Objects in COntext (ROCO)数据集上进行训练,这是一个大规模的多模态医学影像数据集。
ROCO数据集包含了来自各种人体部位(如头部、脊柱、胸部、腹部等)的多种成像模式(如X射线、MRI、超声、荧光透视等)的图像,这些图像来自开放获取的PubMed文章。
PubMedCLIP使用Adam优化器,学习率为10⁻⁵,以64的批量大小训练了50个周期。
作者在这个链接发布了三种不同的预训练模型,它们分别使用ResNet - 50、ResNet - 50x4和ViT32作为图像编码器。本仓库仅包含PubMedCLIP模型的ViT32变体。
额外信息
许可信息
作者根据MIT许可协议发布了模型代码和预训练检查点。
引用信息
@article{eslami2021does,
title={Does clip benefit visual question answering in the medical domain as much as it does in the general domain?},
author={Eslami, Sedigheh and de Melo, Gerard and Meinel, Christoph},
journal={arXiv preprint arXiv:2112.13906},
year={2021}
}
📄 许可证
本项目采用MIT许可证。