vit-gpt2-image-captioning_COCO_FineTuned開源模型 - 免費生成精準圖像描述文本

首頁

Vit Gpt2 Image Captioning COCO FineTuned

由ashok2216開發

結合視覺Transformer（ViT）和GPT-2的圖像描述生成模型，在COCO數據集上微調，能夠根據圖像內容生成描述性文本。

圖像生成文本

Safetensors

英語開源協議:Apache-2.0 #ViT-GPT2聯合架構 #多物體場景描述 #COCO優化模型

下載量 36

發布時間 : 11/12/2024

模型概述

該模型結合了用於圖像特徵提取的視覺Transformer（ViT）和用於文本生成的GPT-2，可根據圖像生成描述性文本。

模型特點

視覺Transformer（ViT）編碼器

強大的圖像特徵提取能力，能夠識別圖像中的物體與場景。

GPT-2語言模型

基於圖像特徵生成語法正確且語義準確的描述文本。

COCO數據集微調

在包含多樣化標註的COCO數據集上完成微調，適用於各類圖像描述場景。

模型能力

圖像特徵提取

文本生成

圖像描述生成

使用案例

圖像描述

圖像自動標註

為圖像生成描述性文本，可用於圖像檢索、內容管理等場景。

生成語法正確且語義準確的描述。

輔助視覺障礙人士

將圖像內容轉換為文本描述，幫助視覺障礙人士理解圖像內容。

🚀 vit-gpt2-image-captioning_COCO_FineTuned

本倉庫包含經過微調的ViT - GPT2圖像描述模型，該模型在COCO數據集上進行了訓練。此模型結合了用於圖像特徵提取的視覺變換器（ViT）和用於文本生成的GPT - 2，能夠根據圖像生成描述性的文字說明。

🚀 快速開始

你可以使用Hugging Face的transformers庫將此模型用於圖像描述任務。以下是加載模型併為輸入圖像生成描述的示例代碼。

📦 安裝指南

要使用此模型，你需要安裝以下庫：

pip install torch torchvision transformers
from transformers import VisionEncoderDecoderModel, ViTImageProcessor, GPT2Tokenizer
import torch
from PIL import Image

💻 使用示例

基礎用法

# 加載微調後的模型和分詞器
model = VisionEncoderDecoderModel.from_pretrained("ashok2216/vit-gpt2-image-captioning_COCO_FineTuned")
processor = ViTImageProcessor.from_pretrained("ashok2216/vit-gpt2-image-captioning_COCO_FineTuned")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# 預處理圖像
image = Image.open("path_to_image.jpg")
inputs = processor(images=image, return_tensors="pt")

# 生成描述
pixel_values = inputs.pixel_values
output = model.generate(pixel_values)
caption = tokenizer.decode(output[0], skip_special_tokens=True)

print("Generated Caption:", caption)