git - baseオープンソース画像からテキスト生成モデル - 無料でデプロイして画像の正確なテキスト記述を実現

ホーム

Git Base

microsoftによって開発

GITはCLIP画像トークンとテキストトークンを双条件とするTransformerデコーダで、画像からテキストを生成するタスクに使用されます。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #画像キャプション生成 #視覚的質問応答(VQA)#双モーダルTransformer

ダウンロード数 365.74k

リリース時間 : 12/6/2022

モデル概要

GITは生成的画像テキスト変換Transformerモデルで、画像内容に基づいて記述テキストを生成でき、画像キャプション生成や視覚的質問応答などのタスクをサポートします。

モデル特徴

双条件Transformerアーキテクチャ

画像トークンとテキストトークンを同時処理し、画像からテキストへの生成を実現します。

マルチタスクサポート

画像キャプション生成、視覚的質問応答、画像分類など多様な視覚言語タスクに適用可能です。

大規模事前学習

1000万の画像-テキストペアで事前学習されています（ベーシック版）。

モデル能力

画像キャプション生成

視覚的質問応答

画像分類

動画キャプション生成

使用事例

コンテンツ生成

自動画像説明

画像に対して正確な文章説明を生成

視覚障害者支援やコンテンツ管理に活用可能

質問応答システム

視覚的質問応答

画像内容に関する自然言語質問に回答

インテリジェントカスタマーサポートや教育アプリケーションに使用可能

🚀 GIT (GenerativeImage2Text) ベースサイズ

GIT（GenerativeImage2Textの略）モデルのベースサイズ版です。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、最初はこのリポジトリで公開されました。

免責事項: GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

モデルの説明

GITは、CLIP画像トークンとテキストトークンの両方を条件とするTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を使用して学習されています。

モデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスでき（すなわち、双方向のアテンションマスクが使用されます）、次のテキストトークンを予測するときには、以前のテキストトークンのみにアクセスできます（すなわち、テキストトークンには因果的なアテンションマスクが使用されます）。

GIT architecture

これにより、このモデルは以下のようなタスクに使用できます。

画像およびビデオのキャプション付け
画像およびビデオに対する視覚的質問応答（VQA）
画像分類（単に画像を条件としてモデルに入力し、テキストでクラスを生成させることで）

想定される用途と制限

生のモデルを画像キャプション付けに使用することができます。興味のあるタスクに関するファインチューニング済みのバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

学習データ

論文からの引用:

我々は、事前学習のために0.8Bの画像-テキストペアを収集しました。これには、COCO (Lin et al., 2014)、Conceptual Captions (CC3M) (Sharma et al., 2018)、SBU (Ordonez et al., 2011)、Visual Genome (VG) (Krishna et al., 2016)、Conceptual Captions (CC12M) (Changpinyo et al., 2021)、ALT200M (Hu et al., 2021a)、およびHu et al. (2021a) と同様の収集手順に従った追加の0.6Bのデータが含まれます。

ただし、これは論文中で「GIT」と呼ばれているモデルに関するものであり、オープンソース化されていません。

このチェックポイントは「GIT-base」であり、1000万の画像-テキストペアで学習されたGITの小さなバリアントです。詳細については、論文の表11を参照してください。