🚀 clip-vit-l-14-pmc-finetuned
本模型是 openai/clip-vit-large-patch14 在 pmc_oa (https://huggingface.co/datasets/axiong/pmc_oa) 數據集上的微調版本。它在評估集上取得了以下結果:
🚀 快速開始
微調模型
可以使用 run_clip.py (https://github.com/huggingface/transformers/tree/main/examples/pytorch/contrastive-image-text) 腳本對該模型進行微調,示例命令如下:
python -W ignore run_clip.py --model_name_or_path openai/clip-vit-large-patch14 \
--output_dir ./clip-vit-l-14-pmc-finetuned \
--train_file data/pmc_roco_train.csv \
--validation_file data/pmc_roco_valid.csv \
--image_column image --caption_column caption \
--max_seq_length 77 \
--do_train --do_eval \
--per_device_train_batch_size 16 --per_device_eval_batch_size 8 \
--remove_unused_columns=False \
--learning_rate="5e-5" --warmup_steps="0" --weight_decay 0.1 \
--overwrite_output_dir \
--num_train_epochs 10 \
--logging_dir ./pmc_vit_logs \
--save_total_limit 2 \
--report_to tensorboard
模型使用
以下是使用該模型的示例代碼:
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("ryanyip7777/pmc_vit-l-14_hf")
processor = CLIPProcessor.from_pretrained("ryanyip7777/pmc_vit-l-14_hf")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
✨ 主要特性
- 基於預訓練的
openai/clip-vit-large-patch14
模型進行微調,能更好地適應 pmc_oa 數據集。
- 在評估集上有明確的損失值指標,可用於衡量模型性能。
📦 安裝指南
文檔未提及安裝相關內容,故跳過此章節。
📚 詳細文檔
模型描述
此模型是 openai/clip-vit-large-patch14
在 pmc_oa 數據集上微調後的版本,但更多詳細信息待補充。
預期用途與限制
關於模型的預期用途和限制,更多信息待補充。
訓練和評估數據
關於訓練和評估數據的更多信息待補充。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:5e-05
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:線性
- 訓練輪數:10.0
框架版本
- Transformers 4.31.0
- Pytorch 2.0.1
- Datasets 2.14.4
- Tokenizers 0.13.3
🔧 技術細節
文檔未提供足夠詳細的技術實現細節,故跳過此章節。
📄 許可證
文檔未提及許可證信息,故跳過此章節。