🚀 git-base-on-diffuision-dataset2
该模型是 microsoft/git-base 在 hieudinhpro/diffuision-dataset2 数据集上的微调版本,可用于将草图场景图像转换为文本,为图像理解和描述提供了有效的解决方案。
✨ 主要特性
- 微调模型:基于
microsoft/git-base
进行微调,能更好地适配特定数据集。
- 图像转文本:专注于草图场景图像到文本的转换任务。
📦 安装指南
由于文档未提供具体安装命令,此部分跳过。
💻 使用示例
基础用法
from transformers import AutoProcessor, AutoModelForCausalLM
processor = AutoProcessor.from_pretrained("microsoft/git-base")
model = AutoModelForCausalLM.from_pretrained("hieudinhpro/git-base-on-diffuision-dataset2")
高级用法
from PIL import Image
image = Image.open('/content/image_3.jpg')
inputs = processor(images=image, return_tensors="pt")
pixel_values = inputs.pixel_values
generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_caption)
📚 详细文档
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):2e-05
- 训练批次大小(train_batch_size):4
- 随机种子(seed):42
- 梯度累积步数(gradient_accumulation_steps):2
- 优化器(optimizer):Adam,其中 betas=(0.9, 0.999),epsilon=1e-08
- 学习率调度器类型(lr_scheduler_type):线性
- 训练轮数(num_epochs):1
框架版本
- Transformers:4.34.0
- Pytorch:2.0.1+cu118
- Datasets:2.14.5
- Tokenizers:0.14.0
🔧 技术细节
GIT(GenerativeImage2Text 的缩写)模型是基础大小版本。它在论文 “GIT: A Generative Image-to-text Transformer for Vision and Language” 中被提出。该模型针对草图场景图像到文本的任务进行训练。
📄 许可证
本模型采用 MIT 许可证。
属性 |
详情 |
模型类型 |
基于 microsoft/git-base 微调的图像转文本模型 |
训练数据 |
hieudinhpro/diffuision-dataset2 数据集 |