vit-rugpt2-image-captioningオープンソースモデル - 無料でデプロイして画像のロシア語の説明文を生成

ホーム

Vit Rugpt2 Image Captioning

tumanによって開発

これはCOCO2014データセット翻訳版（英露）で訓練された画像説明生成モデルで、入力画像に対してロシア語の説明を生成できます。

画像生成テキスト

Transformers

その他#ロシア語画像説明 #ViT-RuGPT2アーキテクチャ #マルチモーダル生成

ダウンロード数 111

リリース時間 : 1/18/2023

モデル概要

このモデルは視覚エンコーダーとテキストデコーダーを組み合わせており、画像内容を理解し対応するロシア語説明を生成できます。

モデル特徴

ロシア語画像説明

ロシア語に最適化された画像説明生成能力

ハイブリッドアーキテクチャ

視覚トランスフォーマー(ViT)とGPT-2アーキテクチャの利点を組み合わせ

事前学習モデル

事前学習モデルを基に初期化され、モデル性能を向上

モデル能力

画像理解

ロシア語テキスト生成

画像からテキストへ

使用事例

支援技術

視覚障害者支援

視覚障害ユーザーに画像内容の説明を提供

画像内容を正確に説明するロシア語テキストを生成

コンテンツ管理

自動画像タグ付け

大量の画像に自動的にロシア語説明タグを生成

画像検索と管理効率を向上

🚀 ロシア語用の最初の画像キャプショニングモデル vit-rugpt2-image-captioning

このモデルは、COCO2014データセットの翻訳版（英語からロシア語）で学習された画像キャプショニングモデルです。

🚀 クイックスタート

この画像キャプショニングモデルは、翻訳版のCOCO2014データセットで学習されており、ロシア語で画像のキャプションを生成することができます。

✨ 主な機能

ロシア語での画像キャプショニングが可能です。
翻訳版のCOCO2014データセットで学習されています。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
import torch
from PIL import Image

model = VisionEncoderDecoderModel.from_pretrained("vit-rugpt2-image-captioning")
feature_extractor = ViTFeatureExtractor.from_pretrained("vit-rugpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("vit-rugpt2-image-captioning")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

max_length = 16
num_beams = 4
gen_kwargs = {"max_length": max_length, "num_beams": num_beams}

def predict_caption(image_paths):
  images = []
  for image_path in image_paths:
    i_image = Image.open(image_path)
    if i_image.mode != "RGB":
      i_image = i_image.convert(mode="RGB")

    images.append(i_image)

  pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
  pixel_values = pixel_values.to(device)

  output_ids = model.generate(pixel_values, **gen_kwargs)

  preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
  preds = [pred.strip() for pred in preds]
  return preds

predict_caption(['train2014/COCO_train2014_000000295442.jpg']) # ['Самолет на взлетно-посадочной полосе аэропорта.']

高度な使用法

from transformers import pipeline

image_to_text = pipeline("image-to-text", model="vit-rugpt2-image-captioning")

image_to_text("train2014/COCO_train2014_000000296754.jpg") # [{'generated_text': 'Человек идет по улице с зонтом.'}]