git-large-cocoオープンソース画像からテキスト生成モデル - 画像を無料で説明的なテキストに変換

Home

Git Large Coco

Developed by alexgk

GITはTransformerベースの画像からテキストを生成するモデルで、入力画像に基づいて記述的なテキストを生成できます。

画像生成テキスト

Transformers

Supports Multiple LanguagesOpen Source License:MIT #画像キャプション生成 #視覚的質問応答 #マルチモーダルトランスフォーマー

Downloads 25

Release Time : 9/5/2023

Model Overview

GIT（GenerativeImage2Text）は、CLIP画像トークンとテキストトークンの条件付けに基づくTransformerデコーダーで、画像キャプション生成や視覚的質問応答などのタスクに使用されます。

Model Features

マルチモーダル理解

視覚情報とテキスト情報を同時に処理し、画像からテキストへの変換を実現

柔軟なタスク適応

画像キャプション生成、視覚的質問応答、画像分類など様々なタスクに利用可能

大規模事前学習

2000万の画像-テキストペアで事前学習され、COCOデータセットでファインチューニング済み

Model Capabilities

画像キャプション生成

視覚的質問応答

画像分類（テキスト生成を通じて）

Use Cases

コンテンツ生成

自動画像タグ付け

画像に対して記述的なテキストを生成

画像内容を正確に記述するテキストを生成

支援技術

視覚支援

視覚障害者向けに画像内容を説明

視覚コンテンツのテキスト説明を提供

🚀 GIT (GenerativeImage2Text)、大規模版、COCOでファインチューニング済み

GIT（GenerativeImage2Textの略）モデルの大規模版で、COCOでファインチューニングされています。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、最初はこのリポジトリで公開されました。

免責事項: GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

モデルの説明

GITは、CLIP画像トークンとテキストトークンの両方を条件とするTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を使用して学習されています。

モデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスできます（つまり、双方向のアテンションマスクが使用されます）が、次のテキストトークンを予測する際には、以前のテキストトークンのみにアクセスできます（つまり、テキストトークンには因果的なアテンションマスクが使用されます）。

GIT architecture

これにより、このモデルは以下のようなタスクに使用できます。

画像および動画のキャプション生成
画像および動画に対する視覚的質問応答（VQA）
画像分類（画像を条件とし、そのクラスをテキストで生成するようにモデルに要求するだけで）

想定される用途と制限

生のモデルを画像キャプション生成に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

🔧 技術詳細

学習データ

論文からの引用:

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO (Lin et al., 2014)、Conceptual Captions (CC3M) (Sharma et al., 2018)、SBU (Ordonez et al., 2011)、Visual Genome (VG) (Krishna et al., 2016)、Conceptual Captions (CC12M) (Changpinyo et al., 2021)、ALT200M (Hu et al., 2021a)、およびHu et al. (2021a) と同様の収集手順に従った追加の0.6Bのデータが含まれます。

ただし、これは論文中で「GIT」と呼ばれているモデルのもので、オープンソース化されていません。

このチェックポイントは「GIT-large」で、2000万の画像 - テキストペアで学習されたGITの小規模なバリアントです。

次に、このモデルはCOCOでファインチューニングされました。詳細については、論文の表11を参照してください。