🚀 paligemma_vqav2
paligemma_vqav2 是一个基于预训练模型微调得到的模型,它基于 google/paligemma-3b-pt-224 在小部分 vq_av2 数据集上进行了微调。该模型可用于特定的视觉问答任务,为图像相关的问题提供答案。
🚀 快速开始
本模型是 google/paligemma-3b-pt-224 在一小部分 vq_av2 数据集上的微调版本。微调代码可在 此处 查看。
💻 使用示例
基础用法
以下是使用该模型的代码示例,也可参考 推理笔记本。
from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
model_id = "merve/paligemma_vqav2"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained("google/paligemma-3b-pt-224")
prompt = "What is behind the cat?"
image_file = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/cat.png?download=true"
raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(prompt, raw_image.convert("RGB"), return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=20)
print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):2e-05
- 训练批次大小(train_batch_size):4
- 评估批次大小(eval_batch_size):8
- 随机种子(seed):42
- 梯度累积步数(gradient_accumulation_steps):4
- 总训练批次大小(total_train_batch_size):16
- 优化器(optimizer):Adam,β1=0.9,β2=0.999,ε=1e-08
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):2
- 训练轮数(num_epochs):2
框架版本
- Transformers:4.42.0.dev0
- Pytorch:2.3.0+cu121
- Datasets:2.19.1
- Tokenizers:0.19.1
📄 许可证
本模型的许可证为 gemma。
📦 模型信息
属性 |
详情 |
模型类型 |
paligemma_vqav2 |
基础模型 |
google/paligemma-3b-pt-224 |
标签 |
generated_from_trainer |
训练数据集 |
HuggingFaceM4/VQAv2 |