git-base-textvqaオープンソースビジュアル言語モデル - 画像をテキスト記述に変換し、TextVQAタスクをサポート！

ホーム

Git Base Textvqa

microsoftによって開発

GITはTransformerベースの視覚言語モデルで、画像をテキスト記述に変換でき、特にTextVQAタスク向けにファインチューニングされています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #画像テキスト生成 #TextVQAファインチューニング #視覚的質問応答

ダウンロード数 1,182

リリース時間 : 12/6/2022

モデル概要

このモデルはCLIP画像トークンとテキストトークンで条件付けされて訓練され、画像キャプション生成や視覚的質問応答などのタスクを実行できます。ベースバージョンは1000万の画像-テキストペアで訓練され、TextVQAタスク向けにファインチューニングされています。

モデル特徴

双方向画像アテンション

モデルは画像パッチトークンに完全アクセスでき、双方向アテンションメカニズムを使用します

因果的テキスト生成

次のテキストトークンを予測する際、先行するテキストトークンのみにアクセス可能で、因果的アテンションマスクを使用します

マルチタスク適応性

画像キャプション生成、視覚的質問応答、画像分類など様々なタスクに使用可能

モデル能力

画像キャプション生成

視覚的質問応答

画像分類

テキスト生成

使用事例

視覚的質問応答

TextVQA

画像内のテキスト内容に基づく質問に回答

TextVQAタスク向けに特別にファインチューニングされています

画像理解

画像キャプション生成

画像に対して記述的なテキストを生成

🚀 生成型画像からテキストへの変換モデル (GIT)、ベースサイズ、TextVQAでファインチューニング済み

GIT（GenerativeImage2Textの略）は、ベースサイズのモデルで、TextVQAでファインチューニングされています。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、このリポジトリで最初に公開されました。

免責事項：GITをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

GITは、CLIP画像トークンとテキストトークンの両方を条件とするTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を使用して学習されます。

モデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスでき（すなわち、双方向の注意マスクが使用されます）、次のテキストトークンを予測するときには、以前のテキストトークンのみにアクセスできます（すなわち、テキストトークンには因果的な注意マスクが使用されます）。

GITアーキテクチャ

これにより、このモデルは以下のようなタスクに使用できます。

画像およびビデオのキャプショニング
画像およびビデオに対する視覚的質問応答（VQA）
画像分類（単に画像を条件としてモデルにクラスをテキストで生成させることで）

想定される用途と制限

生のモデルを視覚的質問応答（VQA）に使用することができます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

学習データ

論文からの引用：

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO（Lin et al., 2014）、Conceptual Captions (CC3M)（Sharma et al., 2018）、SBU（Ordonez et al., 2011）、Visual Genome (VG)（Krishna et al., 2016）、Conceptual Captions (CC12M)（Changpinyo et al., 2021）、ALT200M（Hu et al., 2021a）、およびHu et al. (2021a) と同様の収集手順に従った追加の0.6Bのデータが含まれます。

ただし、これは論文中で「GIT」と呼ばれるモデルに関するもので、オープンソース化されていません。

このチェックポイントは「GIT - base」で、1000万の画像 - テキストペアで学習されたGITの小さいバリアントです。

次に、このモデルはTextVQAでファインチューニングされました。詳細については、論文の表11を参照してください。