vit - gpt2 - image - captioningオープンソース画像説明生成モデル

ホーム

Vit Gpt2 Image Captioning

aryan083によって開発

これはViTとGPT2アーキテクチャに基づく画像説明生成モデルで、入力された画像に対して自然言語の説明を生成できます。

画像生成テキスト

PyTorch

オープンソースライセンス:Apache-2.0 #画像からテキストへ #視覚的エンコーディング・デコーディング #マルチモーダル生成

ダウンロード数 31

リリース時間 : 3/20/2025

モデル概要

このモデルは視覚エンコーダー(ViT)とテキストデコーダー(GPT2)を組み合わせており、画像の内容を自然言語の説明に変換できます。主に画像の自動的な文字説明生成に使用されます。

モデル特徴

視覚-言語連携モデリング

視覚TransformerエンコーダーとGPT2テキストデコーダーを組み合わせ、画像からテキストへの変換を実現

エンドツーエンドトレーニング

モデル全体をエンドツーエンド方式でトレーニングし、画像理解とテキスト生成の連携タスクを最適化

多様なシーンに対応

自然風景や人物活動など、さまざまなシーンの画像を処理可能

モデル能力

画像理解

自然言語生成

画像からテキストへ

自動画像タグ付け

使用事例

コンテンツ生成

ソーシャルメディア画像の自動タグ付け

ソーシャルメディアにアップロードされた画像に対して自動的に説明文を生成

画像内容に合致した自然言語の説明を生成

アクセシビリティ技術サポート

視覚障害者向けに画像内容の音声説明を提供

視覚情報を聴覚可能な文字説明に変換

デジタルアセット管理

画像ライブラリの自動タグ付け

大規模な画像ライブラリに対して自動的に検索タグと説明を生成

画像検索の効率と精度を向上

🚀 nlpconnect/vit-gpt2-image-captioning

このモデルは、@ydshiehによってflaxで学習された画像キャプション生成モデルです。これは、このモデルのPyTorchバージョンです。

🚀 クイックスタート

このセクションでは、この画像キャプション生成モデルの基本的な使い方を説明します。

💻 使用例

基本的な使用法

from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
import torch
from PIL import Image

model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

max_length = 16
num_beams = 4
gen_kwargs = {"max_length": max_length, "num_beams": num_beams}
def predict_step(image_paths):
  images = []
  for image_path in image_paths:
    i_image = Image.open(image_path)
    if i_image.mode != "RGB":
      i_image = i_image.convert(mode="RGB")

    images.append(i_image)

  pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
  pixel_values = pixel_values.to(device)

  output_ids = model.generate(pixel_values, **gen_kwargs)

  preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
  preds = [pred.strip() for pred in preds]
  return preds

predict_step(['doctor.e16ba4e4.jpg']) # ['a woman in a hospital bed with a woman in a hospital bed']

高度な使用法

from transformers import pipeline

image_to_text = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")

image_to_text("https://ankur3107.github.io/assets/images/image-captioning-example.png")

# [{'generated_text': 'a soccer game with a player jumping to catch the ball '}]