image-caption-generatorオープンソース視覚言語モデル - 画像に自然言語の説明を無料で生成

ホーム

Image Caption Generator

bipinによって開発

Flickr8kデータセットでトレーニングされた視覚言語モデルで、入力画像に対して自然言語の説明を生成できます

画像生成テキスト

Transformers

#画像からテキストへの変換 #視覚言語モデル #Flickr8kトレーニング

ダウンロード数 177

リリース時間 : 3/27/2022

モデル概要

このモデルは画像からテキストへの変換モデルで、入力画像の内容を分析し、対応するテキスト記述を生成できます。Transformerアーキテクチャに基づき、視覚エンコーダーとテキストデコーダーを組み合わせています。

モデル特徴

Transformerアーキテクチャベース

視覚エンコーダー(ViT)とテキストデコーダー(GPT2)を組み合わせ、効率的な画像からテキストへの変換を実現

エンドツーエンドトレーニング

モデル全体をエンドツーエンド方式でトレーニングし、画像キャプション生成プロセスを簡素化

ビームサーチ生成

ビームサーチ(beam search)生成戦略をサポートし、生成される記述の品質を向上

モデル能力

画像内容理解

自然言語記述生成

視覚-言語変換

使用事例

支援技術

視覚支援

視覚障害者向けに画像内容の音声説明を提供

コンテンツ管理

画像自動タグ付け

大量の画像に対して自動的に説明タグを生成し、検索と管理を容易にする

🚀 画像キャプション生成器

このモデルは、画像を入力としてキャプションを生成するために、Flickr8k データセットで学習されています。

評価セットでは以下の結果を達成しています：

eval_loss: 0.2536
eval_runtime: 25.369
eval_samples_per_second: 63.818
eval_steps_per_second: 8.002
epoch: 4.0
step: 3236

🚀 クイックスタート

💻 使用例

基本的な使用法

# Load the pre-trained model from the model hub
from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
import torch
from PIL import Image

model_name = "bipin/image-caption-generator"

# load model
model = VisionEncoderDecoderModel.from_pretrained(model_name)
feature_extractor = ViTFeatureExtractor.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained("gpt2")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Load the image for which the caption is to be generated(note: replace the value of `img_name` with image of your choice)
### replace the value with your image
img_name = "flickr_data.jpg"
img = Image.open(img_name)
if img.mode != 'RGB':
    img = img.convert(mode="RGB")

# Pre-process the image
pixel_values = feature_extractor(images=[img], return_tensors="pt").pixel_values
pixel_values = pixel_values.to(device)

# Generate the caption
max_length = 128
num_beams = 4

# get model prediction
output_ids = model.generate(pixel_values, num_beams=num_beams, max_length=max_length)

# decode the generated prediction
preds = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(preds)

📚 ドキュメント

学習手順

このモデルの学習手順については、こちらを参照してください。

学習ハイパーパラメータ

学習時に使用されたハイパーパラメータは以下の通りです：

属性	詳情
学習率	5e-05
学習バッチサイズ	8
評価バッチサイズ	8
シード値	42
オプティマイザ	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類	線形
エポック数	5