vit-gpt2-coco-enオープンソースの画像からテキストへの変換モデル

ホーム

Vit Gpt2 Coco En

ydshiehによって開発

ViTとGPT2アーキテクチャに基づく画像からテキストへの変換モデルで、入力画像に対して合理的な英語の説明を生成できます。

画像生成テキスト #画像からテキストへの変換 #マルチモーダル生成 #ビジュアルエンコードデコード

ダウンロード数 5,177

リリース時間 : 3/2/2022

モデル概要

これはVisionEncoderDecoderフレームワークに基づく概念実証モデルで、ViTをビジュアルエンコーダーとして、GPT2をテキストデコーダーとして使用し、COCOデータセットで微調整され、画像説明生成タスクに使用されます。

モデル特徴

複数のフレームワーク対応

PyTorchとFlax(JAX)の2種類の実装バージョンを同時に提供します。

エンドツーエンド生成

画像のピクセル値から直接自然言語の説明を生成し、中間処理ステップは必要ありません。

軽量アプリケーション

概念実証モデルとして、比較的軽量でデプロイが容易です。

モデル能力

画像理解

自然言語生成

ビジュアル - 言語変換

使用事例

コンテンツ生成

画像の自動ラベリング

画像ライブラリ内の画像に対して自動的に説明的なテキストを生成します。

「猫がソファに横たわっていて、隣に別の猫がいる」のような説明を生成します。

障害者支援

視覚障害者に画像の内容説明を提供します。

🚀 画像キャプショニングモデル

このモデルは最先端のモデルではありませんが、合理的な画像キャプショニング結果を生成します。主に🤗 FlaxVisionEncoderDecoderフレームワークの概念実証として微調整されました。

🚀 クイックスタート

サンプル画像

💻 使用例

基本的な使用法

PyTorchでの使用

import torch
import requests
from PIL import Image
from transformers import ViTFeatureExtractor, AutoTokenizer, VisionEncoderDecoderModel


loc = "ydshieh/vit-gpt2-coco-en"

feature_extractor = ViTFeatureExtractor.from_pretrained(loc)
tokenizer = AutoTokenizer.from_pretrained(loc)
model = VisionEncoderDecoderModel.from_pretrained(loc)
model.eval()


def predict(image):

    pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values

    with torch.no_grad():
        output_ids = model.generate(pixel_values, max_length=16, num_beams=4, return_dict_in_generate=True).sequences

    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
    preds = [pred.strip() for pred in preds]

    return preds


# We will verify our results on an image of cute cats
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
with Image.open(requests.get(url, stream=True).raw) as image:
    preds = predict(image)

print(preds)
# should produce
# ['a cat laying on top of a couch next to another cat']

Flaxでの使用

import jax
import requests
from PIL import Image
from transformers import ViTFeatureExtractor, AutoTokenizer, FlaxVisionEncoderDecoderModel


loc = "ydshieh/vit-gpt2-coco-en"

feature_extractor = ViTFeatureExtractor.from_pretrained(loc)
tokenizer = AutoTokenizer.from_pretrained(loc)
model = FlaxVisionEncoderDecoderModel.from_pretrained(loc)

gen_kwargs = {"max_length": 16, "num_beams": 4}


# This takes sometime when compiling the first time, but the subsequent inference will be much faster
@jax.jit
def generate(pixel_values):
    output_ids = model.generate(pixel_values, **gen_kwargs).sequences
    return output_ids
    
    
def predict(image):

    pixel_values = feature_extractor(images=image, return_tensors="np").pixel_values
    output_ids = generate(pixel_values)
    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
    preds = [pred.strip() for pred in preds]
    
    return preds
    
    
# We will verify our results on an image of cute cats
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
with Image.open(requests.get(url, stream=True).raw) as image:
    preds = predict(image)
    
print(preds)
# should produce
# ['a cat laying on top of a couch next to another cat']