🚀 paligemma_vqav2
paligemma_vqav2 是一個基於預訓練模型微調得到的模型,它基於 google/paligemma-3b-pt-224 在小部分 vq_av2 數據集上進行了微調。該模型可用於特定的視覺問答任務,為圖像相關的問題提供答案。
🚀 快速開始
本模型是 google/paligemma-3b-pt-224 在一小部分 vq_av2 數據集上的微調版本。微調代碼可在 此處 查看。
💻 使用示例
基礎用法
以下是使用該模型的代碼示例,也可參考 推理筆記本。
from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
model_id = "merve/paligemma_vqav2"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained("google/paligemma-3b-pt-224")
prompt = "What is behind the cat?"
image_file = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/cat.png?download=true"
raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(prompt, raw_image.convert("RGB"), return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=20)
print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):2e-05
- 訓練批次大小(train_batch_size):4
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):16
- 優化器(optimizer):Adam,β1=0.9,β2=0.999,ε=1e-08
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):2
- 訓練輪數(num_epochs):2
框架版本
- Transformers:4.42.0.dev0
- Pytorch:2.3.0+cu121
- Datasets:2.19.1
- Tokenizers:0.19.1
📄 許可證
本模型的許可證為 gemma。
📦 模型信息
屬性 |
詳情 |
模型類型 |
paligemma_vqav2 |
基礎模型 |
google/paligemma-3b-pt-224 |
標籤 |
generated_from_trainer |
訓練數據集 |
HuggingFaceM4/VQAv2 |