git-large-r-cocoオープンソース画像からテキストへの変換モデル - 画像から無料で説明的なテキストを生成

ホーム

Git Large R Coco

microsoftによって開発

GITはTransformerベースの生成的画像テキストモデルで、画像から記述的なテキストを生成できます。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #画像キャプション生成 #視覚的質問応答 #マルチモーダルトランスフォーマー

ダウンロード数 86

リリース時間 : 1/22/2023

モデル概要

GITモデルはCLIP画像トークンとテキストトークンを組み合わせ、Transformerデコーダーアーキテクチャを使用し、大量の画像-テキストペアで訓練され、画像キャプション生成や視覚的質問応答などのタスクを実行できます。

モデル特徴

双方向画像アテンション

モデルは画像パッチトークンに完全にアクセスでき、双方向アテンションメカニズムを使用して画像情報を処理します。

因果的テキスト生成

テキスト生成時には因果的アテンションマスクを使用し、以前のテキストトークンのみにアクセス可能で、一貫性のあるテキスト記述を生成します。

マルチタスク能力

画像キャプション生成に限定されず、視覚的質問応答や画像分類など様々な視覚言語タスクに使用可能です。

モデル能力

画像キャプション生成

視覚的質問応答(VQA)

画像分類

動画キャプション生成

使用事例

コンテンツ生成

自動画像タグ付け

ソーシャルメディアやコンテンツ管理システムの画像に自動的に記述テキストを生成

コンテンツのアクセシビリティとSEOの向上

支援技術

視覚支援

視覚障害者向けに画像内容の音声説明を提供

デジタルコンテンツのアクセシビリティ向上

🚀 GIT (GenerativeImage2Text) 大規模版、COCOでファインチューニング済み、R*

R = cc12mデータセット内の一部の不快なキャプションを削除して再学習

GIT（GenerativeImage2Textの略）モデルの大規模版で、COCOでファインチューニングされています。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、最初はこのリポジトリで公開されました。

免責事項: GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

GITは、CLIP画像トークンとテキストトークンの両方に条件付けられたTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を使用して学習されています。

モデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスできます（つまり、双方向の注意マスクが使用されます）が、次のテキストトークンを予測する際には、以前のテキストトークンのみにアクセスできます（つまり、テキストトークンには因果的な注意マスクが使用されます）。

GITアーキテクチャ

これにより、このモデルは以下のようなタスクに使用できます。

画像およびビデオのキャプショニング
画像およびビデオに対する視覚的質問応答（VQA）
画像分類（単に画像にモデルを条件付け、テキストでクラスを生成させることで）

🚀 クイックスタート

生のモデルを画像キャプショニングに使用することができます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📦 インストール

READMEにインストール手順に関する具体的な内容がありませんでしたので、このセクションは省略されています。

📚 ドキュメント

モデルの訓練データ

論文からの引用:

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO (Lin et al., 2014)、Conceptual Captions (CC3M) (Sharma et al., 2018)、SBU (Ordonez et al., 2011)、Visual Genome (VG) (Krishna et al., 2016)、Conceptual Captions (CC12M) (Changpinyo et al., 2021)、ALT200M (Hu et al., 2021a)、およびHu et al. (2021a) と同様の収集手順に従った追加の0.6Bのデータが含まれます。

ただし、これは論文で「GIT」と呼ばれるモデルに関するもので、オープンソース化されていません。

このチェックポイントは「GIT-large」で、2000万の画像 - テキストペアで学習されたGITの小規模バリアントです。

次に、このモデルはCOCOでファインチューニングされました。詳細については、論文の表11を参照してください。