🚀 git-base-on-diffuision-dataset2
該模型是 microsoft/git-base 在 hieudinhpro/diffuision-dataset2 數據集上的微調版本,可用於將草圖場景圖像轉換為文本,為圖像理解和描述提供了有效的解決方案。
✨ 主要特性
- 微調模型:基於
microsoft/git-base
進行微調,能更好地適配特定數據集。
- 圖像轉文本:專注於草圖場景圖像到文本的轉換任務。
📦 安裝指南
由於文檔未提供具體安裝命令,此部分跳過。
💻 使用示例
基礎用法
from transformers import AutoProcessor, AutoModelForCausalLM
processor = AutoProcessor.from_pretrained("microsoft/git-base")
model = AutoModelForCausalLM.from_pretrained("hieudinhpro/git-base-on-diffuision-dataset2")
高級用法
from PIL import Image
image = Image.open('/content/image_3.jpg')
inputs = processor(images=image, return_tensors="pt")
pixel_values = inputs.pixel_values
generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_caption)
📚 詳細文檔
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):2e-05
- 訓練批次大小(train_batch_size):4
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):2
- 優化器(optimizer):Adam,其中 betas=(0.9, 0.999),epsilon=1e-08
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):1
框架版本
- Transformers:4.34.0
- Pytorch:2.0.1+cu118
- Datasets:2.14.5
- Tokenizers:0.14.0
🔧 技術細節
GIT(GenerativeImage2Text 的縮寫)模型是基礎大小版本。它在論文 “GIT: A Generative Image-to-text Transformer for Vision and Language” 中被提出。該模型針對草圖場景圖像到文本的任務進行訓練。
📄 許可證
本模型採用 MIT 許可證。
屬性 |
詳情 |
模型類型 |
基於 microsoft/git-base 微調的圖像轉文本模型 |
訓練數據 |
hieudinhpro/diffuision-dataset2 數據集 |