🚀 PubMedCLIP模型卡
PubMedCLIP是CLIP在醫學領域的微調版本,它能有效解決醫學圖像與文本的關聯問題,為醫學圖像的理解和分析提供強大助力。
🚀 快速開始
你可以按照以下代碼示例快速使用PubMedCLIP模型:
import requests
from PIL import Image
import matplotlib.pyplot as plt
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("flaviagiammarino/pubmed-clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("flaviagiammarino/pubmed-clip-vit-base-patch32")
url = "https://huggingface.co/flaviagiammarino/pubmed-clip-vit-base-patch32/resolve/main/scripts/input.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
text = ["Chest X-Ray", "Brain MRI", "Abdominal CT Scan"]
inputs = processor(text=text, images=image, return_tensors="pt", padding=True)
probs = model(**inputs).logits_per_image.softmax(dim=1).squeeze()
plt.subplots()
plt.imshow(image)
plt.title("".join([x[0] + ": " + x[1] + "\n" for x in zip(text, [format(prob, ".4%") for prob in probs])]))
plt.axis("off")
plt.tight_layout()
plt.show()

✨ 主要特性
PubMedCLIP是專門為醫學領域微調的模型,基於大規模的醫學影像數據集進行訓練,能更好地處理醫學圖像和文本的關聯任務。
📚 詳細文檔
模型描述
PubMedCLIP在Radiology Objects in COntext (ROCO)數據集上進行訓練,這是一個大規模的多模態醫學影像數據集。
ROCO數據集包含了來自各種人體部位(如頭部、脊柱、胸部、腹部等)的多種成像模式(如X射線、MRI、超聲、熒光透視等)的圖像,這些圖像來自開放獲取的PubMed文章。
PubMedCLIP使用Adam優化器,學習率為10⁻⁵,以64的批量大小訓練了50個週期。
作者在這個鏈接發佈了三種不同的預訓練模型,它們分別使用ResNet - 50、ResNet - 50x4和ViT32作為圖像編碼器。本倉庫僅包含PubMedCLIP模型的ViT32變體。
額外信息
許可信息
作者根據MIT許可協議發佈了模型代碼和預訓練檢查點。
引用信息
@article{eslami2021does,
title={Does clip benefit visual question answering in the medical domain as much as it does in the general domain?},
author={Eslami, Sedigheh and de Melo, Gerard and Meinel, Christoph},
journal={arXiv preprint arXiv:2112.13906},
year={2021}
}
📄 許可證
本項目採用MIT許可證。