git-base-on-diffuision-dataset2開源圖像到文本生成模型

首頁

Git Base On Diffuision Dataset2

由hieudinhpro開發

基於microsoft/git-base在diffuision-dataset2數據集上微調的圖像到文本生成模型

圖像生成文本

Transformers

支持多種語言開源協議:MIT #草圖轉文本 #圖像描述生成 #GIT微調

下載量 17

發布時間 : 10/5/2023

模型概述

該模型是基於GIT（GenerativeImage2Text）架構的圖像到文本生成模型，專門針對草圖場景圖像轉文本任務進行了微調。

模型特點

圖像到文本生成

能夠將輸入的圖像轉換為描述性文本

基於Transformer架構

採用先進的Transformer架構處理視覺和語言信息

微調優化

在特定數據集上進行了微調，優化了草圖場景的理解能力

模型能力

圖像理解

文本生成

草圖場景描述

使用案例

創意設計

草圖描述生成

為設計師的草圖自動生成文字描述

輔助工具

視覺輔助

幫助視障人士理解圖像內容

🚀 git-base-on-diffuision-dataset2

該模型是 microsoft/git-base 在 hieudinhpro/diffuision-dataset2 數據集上的微調版本，可用於將草圖場景圖像轉換為文本，為圖像理解和描述提供了有效的解決方案。

✨ 主要特性

微調模型：基於 microsoft/git-base 進行微調，能更好地適配特定數據集。
圖像轉文本：專注於草圖場景圖像到文本的轉換任務。

📦 安裝指南

由於文檔未提供具體安裝命令，此部分跳過。

💻 使用示例

基礎用法

# Load model directly
from transformers import AutoProcessor, AutoModelForCausalLM

processor = AutoProcessor.from_pretrained("microsoft/git-base")
model = AutoModelForCausalLM.from_pretrained("hieudinhpro/git-base-on-diffuision-dataset2")

高級用法

# load image
from PIL import Image

image = Image.open('/content/image_3.jpg')

# pre image
inputs = processor(images=image, return_tensors="pt")
pixel_values = inputs.pixel_values

# predict 
generated_ids = model.generate(pixel_values=pixel_values, max_length=50)

# decode to text
generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_caption)