git-large-cocoオープンソースビジュアル言語モデル - 無料でデプロイして画像記述生成とビジュアル質問応答を実現

ホーム

Git Large Coco

microsoftによって開発

GITはTransformerデコーダーベースの視覚言語モデルで、画像キャプション生成や視覚的質問応答が可能

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #画像キャプション生成 #視覚的質問応答 #マルチモーダルトランスフォーマー

ダウンロード数 6,582

リリース時間 : 1/2/2023

モデル概要

GIT（GenerativeImage2Text）モデルはCLIP画像トークンとテキストトークンを使用し、双方向アテンション機構で画像を処理、因果的アテンションでテキストを生成。画像/動画キャプション生成、視覚的質問応答などのタスクに適応

モデル特徴

双方向画像アテンション

モデルは画像パッチトークンに双方向アテンション機構を適用し、画像内容を深く理解

因果的テキスト生成

テキスト生成時には因果的アテンションマスクを使用し、自己回帰的テキスト生成の一貫性を確保

マルチタスク対応

単一モデルで画像キャプション生成、視覚的質問応答、画像分類など複数タスクを同時にサポート

モデル能力

画像キャプション生成

視覚的質問応答(VQA)

画像分類

動画キャプション生成

使用事例

コンテンツ生成

自動画像タグ付け

画像に自然言語の説明を生成

ソーシャルメディアやコンテンツ管理システムなどで利用可能

支援技術

視覚支援

視覚障害者向けに画像内容を説明

情報アクセシビリティの向上

教育

教材生成

教材用画像の自動テキスト説明生成

教師の教材準備負担軽減

🚀 GIT (GenerativeImage2Text)、大型、COCOでファインチューニング済み

GIT（GenerativeImage2Textの略）モデルの大型版で、COCOデータセットでファインチューニングされています。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、このリポジトリで最初に公開されました。

免責事項：GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

GITは、CLIPの画像トークンとテキストトークンの両方を条件とするTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を用いて訓練されています。

モデルの目的は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスできます（つまり、双方向のアテンションマスクが使用されます）が、次のテキストトークンを予測する際には、以前のテキストトークンのみにアクセスできます（つまり、テキストトークンには因果的なアテンションマスクが使用されます）。

GIT architecture

これにより、このモデルは以下のようなタスクに使用できます。

画像およびビデオのキャプション付け
画像およびビデオに対する視覚的質問応答（VQA）
画像分類（単に画像をモデルに入力し、テキストでクラスを生成させることで）

✨ 主な機能

このモデルは、画像トークンとテキストトークンを組み合わせることで、画像やビデオに関連する様々なタスクを行うことができます。双方向のアテンションマスクと因果的なアテンションマスクを使い分けることで、画像情報とテキスト情報を効果的に処理します。

📚 ドキュメント

想定される使用目的と制限

生のモデルを画像キャプション付けに使用することができます。関心のあるタスクに関するファインチューニング済みのバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

訓練データ

論文からの引用：

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO (Lin et al., 2014)、Conceptual Captions (CC3M) (Sharma et al., 2018)、SBU (Ordonez et al., 2011)、Visual Genome (VG) (Krishna et al., 2016)、Conceptual Captions (CC12M) (Changpinyo et al., 2021)、ALT200M (Hu et al., 2021a)、およびHu et al. (2021a) と同様の収集手順に従った追加の0.6Bのデータが含まれます。

ただし、これは論文中で「GIT」と呼ばれるモデルのためのもので、オープンソース化されていません。

このチェックポイントは「GIT-large」で、2000万の画像 - テキストペアで訓練されたGITの小型バリアントです。

次に、このモデルはCOCOでファインチューニングされました。詳細については、論文の表11を参照してください。