vit - gpt2 - image - captioning_COCO_FineTunedオープンソースモデル - 無料で正確な画像説明テキストを生成

ホーム

Vit Gpt2 Image Captioning COCO FineTuned

ashok2216によって開発

視覚Transformer（ViT）とGPT-2を組み合わせた画像キャプション生成モデルで、COCOデータセットでファインチューニングされており、画像内容に基づいて記述テキストを生成できます。

画像生成テキスト

Safetensors

英語オープンソースライセンス:Apache-2.0 #ViT-GPT2連携アーキテクチャ #複数物体シーン記述 #COCO最適化モデル

ダウンロード数 36

リリース時間 : 11/12/2024

モデル概要

このモデルは、画像特徴抽出用の視覚Transformer（ViT）とテキスト生成用のGPT-2を組み合わせており、画像から記述テキストを生成できます。

モデル特徴

視覚Transformer（ViT）エンコーダー

強力な画像特徴抽出能力を備え、画像内の物体とシーンを識別できます。

GPT-2言語モデル

画像特徴に基づいて文法正しく意味的に正確な記述テキストを生成します。

COCOデータセットファインチューニング

多様なアノテーションを含むCOCOデータセットでファインチューニングされており、様々な画像キャプションシーンに適用可能です。

モデル能力

画像特徴抽出

テキスト生成

画像キャプション生成

使用事例

画像キャプション

画像自動タグ付け

画像に記述テキストを生成し、画像検索やコンテンツ管理などのシーンで使用できます。

文法正しく意味的に正確な記述を生成します。

視覚障害者支援

画像内容をテキスト記述に変換し、視覚障害者が画像内容を理解するのを支援します。

🚀 vit-gpt2-image-captioning_COCO_FineTuned

このリポジトリには、COCOデータセットで学習された、画像キャプション生成用の微調整済みViT - GPT2モデルが含まれています。このモデルは、画像特徴抽出にVision Transformer (ViT) を、テキスト生成にGPT - 2を組み合わせて、画像から説明的なキャプションを生成します。

✨ 主な機能

このモデルは、入力画像内の物体とコンテキストに基づいてキャプションを生成します。COCOデータセットで微調整されており、多様な画像と詳細な注釈が含まれているため、様々な画像キャプション生成タスクに適しています。

📦 インストール

このモデルを使用するには、以下のライブラリをインストールする必要があります。

pip install torch torchvision transformers
from transformers import VisionEncoderDecoderModel, ViTImageProcessor, GPT2Tokenizer
import torch
from PIL import Image

💻 使用例

基本的な使用法

# 微調整済みモデルとトークナイザーを読み込む
model = VisionEncoderDecoderModel.from_pretrained("ashok2216/vit-gpt2-image-captioning_COCO_FineTuned")
processor = ViTImageProcessor.from_pretrained("ashok2216/vit-gpt2-image-captioning_COCO_FineTuned")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# 画像を前処理する
image = Image.open("path_to_image.jpg")
inputs = processor(images=image, return_tensors="pt")

# キャプションを生成する
pixel_values = inputs.pixel_values
output = model.generate(pixel_values)
caption = tokenizer.decode(output[0], skip_special_tokens=True)

print("Generated Caption:", caption)