vit2distilgpt2オープンソースの画像からテキスト生成モデル - 画像を無料で記述的なテキストに変換する

ホーム

Vit2distilgpt2

sachinによって開発

これは画像からテキストを生成するモデルで、画像を受け取り、記述的なテキストを出力することができます。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #画像からテキストへの変換 #ビジュアルエンコード・デコード #COCOデータセットでの訓練

ダウンロード数 49

リリース時間 : 3/2/2022

モデル概要

このモデルはViTとDistilGPT2のアーキテクチャに基づいており、画像記述生成タスクに特化しており、COCO2017データセットで訓練されています。

モデル特徴

ビジュアル - 言語統合モデル

ビジュアルエンコーダと言語デコーダを組み合わせて、画像からテキストへの変換を実現します。

COCOデータセットでの訓練

広く使用されている画像記述データセットで訓練されており、良好な汎化能力を持っています。

軽量アーキテクチャ

デコーダとしてDistilGPT2を使用しており、完全版のGPT2よりも軽量です。

モデル能力

画像理解

テキスト生成

画像記述生成

使用事例

支援技術

視覚支援

視覚障害者のために画像記述を生成します。

コンテンツ生成

ソーシャルメディアコンテンツの自動生成

アップロードされた画像に対して自動的に記述テキストを生成します。

🚀 Vit2-DistilGPT2

このモデルは画像を入力として受け取り、キャプションを出力します。Cocoデータセットを使用して学習されており、完全な学習スクリプトはこのKaggleカーネルで見ることができます。

🚀 クイックスタート

💻 使用例

基本的な使用法

import Image
from transformers import AutoModel, GPT2Tokenizer, ViTFeatureExtractor
model = AutoModel.from_pretrained("sachin/vit2distilgpt2")
vit_feature_extractor = ViTFeatureExtractor.from_pretrained("google/vit-base-patch16-224-in21k")
# make sure GPT2 appends EOS in begin and end
def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
    outputs = [self.bos_token_id] + token_ids_0 + [self.eos_token_id]
    return outputs
    
GPT2Tokenizer.build_inputs_with_special_tokens = build_inputs_with_special_tokens
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("distilgpt2")
# set pad_token_id to unk_token_id -> be careful here as unk_token_id == eos_token_id == bos_token_id
gpt2_tokenizer.pad_token = gpt2_tokenizer.unk_token
image = (Image.open(image_path).convert("RGB"), return_tensors="pt").pixel_values
encoder_outputs = model.generate(image.unsqueeze(0))
generated_sentences = gpt2_tokenizer.batch_decode(encoder_outputs, skip_special_tokens=True)

⚠️ 重要提示

出力される文章が繰り返されることがあるため、後処理が必要になる場合があります。

🔧 バイアスの警告

このモデルは、データセット、長時間の学習の不足、およびモデル自体の影響でバイアスが生じる可能性があります。以下の性別バイアスの例をご覧ください。