pmc_vit-l-14_hf开源视觉语言模型 - 基于特定数据集微调助力图文关联应用

首页

Pmc Vit L 14 Hf

由 ryanyip7777 开发

基于CLIP-ViT-L/14在PMC-OA数据集上微调的视觉语言模型

文本生成图像

Transformers

#医学图像-文本对齐 #PMC文献适配 #多模态检索

下载量 260

发布时间 : 9/7/2023

模型简介

该模型是OpenAI CLIP-ViT-L/14的微调版本，专门针对生物医学文献图像-文本匹配任务进行了优化。

模型特点

生物医学领域优化

在PMC-OA生物医学文献数据集上微调，增强了处理医学图像和文本的能力

多模态理解

能够同时处理图像和文本输入，理解两者之间的语义关系

模型能力

图像特征提取

文本特征提取

跨模态相似度计算

图像-文本匹配

使用案例

医学研究

医学文献图像检索

根据文本描述检索相关医学图像

医学图像标注

为医学图像生成描述性文本

🚀 clip-vit-l-14-pmc-finetuned

本模型是 openai/clip-vit-large-patch14 在 pmc_oa (https://huggingface.co/datasets/axiong/pmc_oa) 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：1.0125

🚀 快速开始

微调模型

可以使用 run_clip.py (https://github.com/huggingface/transformers/tree/main/examples/pytorch/contrastive-image-text) 脚本对该模型进行微调，示例命令如下：

python -W ignore run_clip.py --model_name_or_path openai/clip-vit-large-patch14 \
      --output_dir ./clip-vit-l-14-pmc-finetuned \
      --train_file data/pmc_roco_train.csv \
      --validation_file data/pmc_roco_valid.csv \
      --image_column image --caption_column caption \
      --max_seq_length 77 \
      --do_train --do_eval \
      --per_device_train_batch_size 16 --per_device_eval_batch_size 8 \
      --remove_unused_columns=False \
      --learning_rate="5e-5" --warmup_steps="0" --weight_decay 0.1 \
      --overwrite_output_dir  \
      --num_train_epochs 10 \
      --logging_dir ./pmc_vit_logs \
      --save_total_limit 2 \
      --report_to  tensorboard

模型使用

以下是使用该模型的示例代码：

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("ryanyip7777/pmc_vit-l-14_hf")
processor = CLIPProcessor.from_pretrained("ryanyip7777/pmc_vit-l-14_hf")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # 这是图像 - 文本相似度得分
probs = logits_per_image.softmax(dim=1) # 可以使用softmax函数得到标签概率