image-caption-generator開源視覺語言模型 - 免費為圖像生成自然語言描述

首頁

Image Caption Generator

由bipin開發

基於Flickr8k數據集訓練的視覺語言模型，能夠為輸入圖像生成自然語言描述

圖像生成文本

Transformers

#圖像轉文本 #視覺語言模型 #Flickr8k訓練

下載量 177

發布時間 : 3/27/2022

模型概述

該模型是一個圖像到文本的轉換模型，能夠分析輸入圖像的內容並生成相應的文字描述。基於Transformer架構，結合了視覺編碼器和文本解碼器。

模型特點

基於Transformer架構

結合視覺編碼器(ViT)和文本解碼器(GPT2)，實現高效的圖像到文本轉換

端到端訓練

整個模型採用端到端方式進行訓練，簡化了圖像描述生成流程

束搜索生成

支持束搜索(beam search)生成策略，提高生成描述的質量

模型能力

圖像內容理解

自然語言描述生成

視覺-語言轉換

使用案例

輔助技術

視覺輔助

為視障人士提供圖像內容的語音描述

內容管理

圖像自動標註

為大量圖像自動生成描述標籤，便於搜索和管理

🚀 圖像字幕生成器

本模型旨在解決為圖像生成描述性字幕的問題，通過在特定數據集上進行訓練，能夠根據輸入的圖像輸出準確且有意義的文字描述，為圖像理解和信息傳遞提供了有效的解決方案。

🚀 快速開始

本模型在 Flickr8k 數據集上進行訓練，可根據給定的圖像生成字幕。它在評估集上取得了以下結果：

評估損失：0.2536
評估運行時間：25.369
每秒評估樣本數：63.818
每秒評估步數：8.002
輪數：4.0
步數：3236

📦 安裝指南

使用transformers庫運行此模型，可按照以下步驟操作：

1. 從模型中心加載預訓練模型

from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
import torch
from PIL import Image

model_name = "bipin/image-caption-generator"

# 加載模型
model = VisionEncoderDecoderModel.from_pretrained(model_name)
feature_extractor = ViTFeatureExtractor.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained("gpt2")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

2. 加載要生成字幕的圖像（注意：將 `img_name` 的值替換為你選擇的圖像）

### 將值替換為你的圖像
img_name = "flickr_data.jpg"
img = Image.open(img_name)
if img.mode != 'RGB':
    img = img.convert(mode="RGB")

3. 對圖像進行預處理

pixel_values = feature_extractor(images=[img], return_tensors="pt").pixel_values
pixel_values = pixel_values.to(device)

4. 生成字幕

max_length = 128
num_beams = 4

# 獲取模型預測結果
output_ids = model.generate(pixel_values, num_beams=num_beams, max_length=max_length)

# 解碼生成的預測結果
preds = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(preds)

📚 詳細文檔

訓練過程

訓練此模型的具體過程可參考此處。

訓練超參數

訓練期間使用了以下超參數：

屬性	詳情
學習率	5e - 05
訓練批次大小	8
評估批次大小	8
隨機種子	42
優化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型	線性
訓練輪數	5