git-base-vatexオープンソースモデル - 画像とビデオの字幕生成をサポート

ホーム

Git Base Vatex

microsoftによって開発

GITはTransformerベースの生成的画像からテキストへの変換モデルで、ベースバージョンはVATEXデータセットでファインチューニングされており、画像や動画の字幕生成などのタスクに適しています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #動画字幕生成 #視覚的質問応答 #マルチモーダルトランスフォーマー

ダウンロード数 752

リリース時間 : 1/2/2023

モデル概要

GITモデルはCLIP画像トークンとテキストトークンのTransformerデコーダーを使用し、大量の画像-テキストペアで訓練され、次のテキストトークンを予測でき、画像/動画字幕生成、視覚的質問応答、画像分類などのタスクをサポートします。

モデル特徴

マルチモーダル理解

視覚と言語情報を同時に処理し、画像からテキストへの変換を実現します。

生成的モデル

従来の分類方法ではなく、生成的方法でテキストトークンを予測します。

注意機構

画像トークンには双方向注意、テキストトークンには因果的注意を使用します。

モデル能力

画像キャプション生成

動画字幕生成

視覚的質問応答

画像分類

使用事例

マルチメディアコンテンツ理解

動画自動字幕

動画コンテンツに説明字幕を生成

画像説明生成

画像に詳細なテキスト説明を生成

インテリジェント質問応答

視覚的質問応答システム

画像内容に関する自然言語質問に回答

🚀 GIT (GenerativeImage2Text)、ベースサイズ、VATEXでファインチューニング済み

GIT（GenerativeImage2Textの略）モデルのベースサイズ版で、VATEXでファインチューニングされています。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、最初はこのリポジトリで公開されました。

免責事項: GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは、画像や動画のキャプション生成、視覚的質問応答、画像分類などのタスクに使用できます。以下に、モデルの概要や使用方法、トレーニングデータ、評価結果などを説明します。

✨ 主な機能

モデルの説明

GITは、CLIPの画像トークンとテキストトークンの両方に条件付けられたTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を使用してトレーニングされています。

モデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスでき（すなわち、双方向の注意マスクが画像パッチトークンに使用されます）、次のテキストトークンを予測するときには、以前のテキストトークンのみにアクセスできます（すなわち、テキストトークンには因果的な注意マスクが使用されます）。

GITアーキテクチャ

これにより、モデルは以下のようなタスクに使用できます。

画像および動画のキャプション生成
画像および動画に対する視覚的質問応答（VQA）
画像分類（単に画像をモデルに入力し、テキストでクラスを生成させることで）

想定される用途と制限

生のモデルを動画のキャプション生成に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

トレーニングデータ

論文からの引用:

事前トレーニングのために0.8Bの画像 - テキストペアを収集しました。これには、COCO (Lin et al., 2014)、Conceptual Captions (CC3M) (Sharma et al., 2018)、SBU (Ordonez et al., 2011)、Visual Genome (VG) (Krishna et al., 2016)、Conceptual Captions (CC12M) (Changpinyo et al., 2021)、ALT200M (Hu et al., 2021a)、およびHu et al. (2021a) と同様の収集手順に従った追加の0.6Bのデータが含まれます。

ただし、これは論文で「GIT」と呼ばれているモデルのもので、オープンソース化されていません。

このチェックポイントは「GIT - base」で、1000万の画像 - テキストペアでトレーニングされたGITの小さいバリアントです。

次に、このモデルはVATEXでファインチューニングされました。詳細については、論文 GIT: A Generative Image-to-text Transformer for Vision and Language の表11を参照してください。