git-large-vatexオープンソースモデル - 画像・動画の記述生成とビジュアル質問応答を無料でサポート

ホーム

Git Large Vatex

microsoftによって開発

GITはCLIP画像トークンとテキストトークンの条件付けに基づくトランスフォーマーデコーダーで、画像やビデオの記述生成、視覚的質問応答などのタスクに使用されます。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #ビデオ記述生成 #視覚的質問応答 #マルチモーダルトランスフォーマー

ダウンロード数 267

リリース時間 : 1/2/2023

モデル概要

GITモデルは教師強制方式で多数の画像-テキストペアで訓練され、次のテキストトークンを予測でき、画像/ビデオ記述生成、視覚的質問応答、画像分類などのタスクに適しています。

モデル特徴

マルチモーダル処理能力

視覚情報とテキスト情報を同時に処理し、画像からテキストへの生成を実現

双方向注意メカニズム

画像トークンには双方向注意を、テキストトークンには因果的注意を使用

マルチタスク適応性

記述生成、視覚的質問応答、分類など様々な視覚言語タスクに使用可能

モデル能力

画像記述生成

ビデオ記述生成

視覚的質問応答

画像分類

使用事例

メディアコンテンツ生成

ビデオ自動記述

ビデオコンテンツの自然言語記述を生成

支援技術

視覚支援

視覚障害者のために画像内容を記述

🚀 GIT (GenerativeImage2Text)、大規模版、VATEXでファインチューニング済み

GIT（GenerativeImage2Textの略）モデルの大規模版で、VATEXでファインチューニングされています。このモデルは、Wangらによる論文GIT: A Generative Image-to-text Transformer for Vision and Languageで紹介され、最初はthis repositoryで公開されました。

免責事項: GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

📚 ドキュメント

モデルの説明

GITは、CLIP画像トークンとテキストトークンの両方を条件とするTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を使用して学習されます。

モデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスできます（つまり、双方向の注意マスクが使用されます）が、次のテキストトークンを予測する際には、以前のテキストトークンのみにアクセスできます（つまり、テキストトークンには因果的な注意マスクが使用されます）。

GIT architecture

これにより、モデルは以下のようなタスクに使用できます。

画像および動画のキャプション付け
画像および動画に対する視覚的質問応答（VQA）
画像分類（単にモデルを画像に条件付け、テキストでクラスを生成させることで）

想定される使用法と制限

生のモデルを動画のキャプション付けに使用することができます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

学習データ

論文から引用：

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO (Lin et al., 2014)、Conceptual Captions (CC3M) (Sharma et al., 2018)、SBU (Ordonez et al., 2011)、Visual Genome (VG) (Krishna et al., 2016)、Conceptual Captions (CC12M) (Changpinyo et al., 2021)、ALT200M (Hu et al., 2021a)、およびHu et al. (2021a)と同様の収集手順に従って収集された追加の0.6Bのデータが含まれます。

ただし、これは論文中で「GIT」と呼ばれるモデルに関するもので、オープンソース化されていません。

このチェックポイントは「GIT-large」で、2000万の画像 - テキストペアで学習されたGITの小規模バリアントです。

次に、モデルはVATEXでファインチューニングされました。詳細については、論文の表11を参照してください。