git-large-textcapsオープンソースモデル - 画像説明生成とビジュアル質問応答タスクを無料で支援

ホーム

Git Large Textcaps

microsoftによって開発

GITは、画像キャプション生成や視覚的質問応答などのタスクのための、Transformerベースのデュアルコンディションデコーダーモ型です。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #画像キャプション生成 #テキスト強化ビジョン #マルチモーダルトランスフォーマー

ダウンロード数 1,749

リリース時間 : 1/2/2023

モデル概要

GITモデルは、CLIP画像トークンとテキストトークンのデュアルコンディションTransformerデコーダーを使用して、画像キャプション生成、視覚的質問応答、画像分類などのタスクを実行できます。

モデル特徴

デュアルコンディションTransformerデコーダー

CLIP画像トークンとテキストトークンを組み合わせ、効率的な画像からテキストへの変換を実現します。

マルチタスクサポート

画像キャプション生成、視覚的質問応答、画像分類など、複数のタスクを実行できます。

大規模事前学習

2000万の画像-テキストペアでトレーニングされ、TextCapsでファインチューニングされています。

モデル能力

画像キャプション生成

視覚的質問応答

画像分類

使用事例

画像理解

画像キャプション生成

入力画像に対して詳細なテキスト説明を生成します。

視覚的質問応答

画像内容に関する自然言語の質問に答えます。

画像分類

テキストカテゴリ生成

画像に基づいて対応するテキストカテゴリを生成します。

🚀 GIT (GenerativeImage2Text) 大規模版、TextCapsでファインチューニング済み

GIT（GenerativeImage2Textの略）モデルの大規模版で、TextCapsでファインチューニングされています。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、このリポジトリで最初に公開されました。

免責事項: GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

GITは、CLIP画像トークンとテキストトークンの両方に条件付けられたTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を使用して訓練されています。

モデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスできます（つまり、双方向の注意マスクが使用されます）が、次のテキストトークンを予測するときには、以前のテキストトークンのみにアクセスできます（つまり、テキストトークンには因果的な注意マスクが使用されます）。

GITアーキテクチャ

これにより、このモデルは以下のようなタスクに使用できます。

画像およびビデオのキャプション付け
画像およびビデオに対する視覚的質問応答（VQA）
画像分類（単に画像をモデルに入力し、テキストでクラスを生成させることで）

🚀 クイックスタート

生のモデルを画像のキャプション付けに使用することができます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📦 インストール

このREADMEにはインストール手順に関する内容がありません。

📚 ドキュメント

訓練データ

論文からの引用:

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO (Lin et al., 2014)、Conceptual Captions (CC3M) (Sharma et al., 2018)、SBU (Ordonez et al., 2011)、Visual Genome (VG) (Krishna et al., 2016)、Conceptual Captions (CC12M) (Changpinyo et al., 2021)、ALT200M (Hu et al., 2021a)、およびHu et al. (2021a) と同様の収集手順に従って収集された追加の0.6Bのデータが含まれます。

ただし、これは論文中で「GIT」と呼ばれるモデルに関するもので、オープンソース化されていません。

このチェックポイントは「GIT-large」で、2000万の画像 - テキストペアで訓練されたGITの小規模バリアントです。

次に、このモデルはTextCapsでファインチューニングされました。詳細については、論文の表11を参照してください。