git-base-finetuneオープンソース画像からテキストへの変換モデル - 視覚コンテンツを無料で記述的なテキストに変換

ホーム

Git Base Finetune

wangjin2000によって開発

GITはTransformerベースの生成的画像からテキストへのモデルで、視覚的コンテンツを記述的なテキストに変換できます。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #画像キャプション生成 #視覚的質問応答 #マルチモーダルトランスフォーマー

ダウンロード数 18

リリース時間 : 5/23/2023

モデル概要

GITモデルは、CLIP画像トークンとテキストトークンのTransformerデコーダを組み合わせることで、画像からテキストへの変換を実現します。画像キャプション生成、視覚的質問応答、さらには画像分類も可能です。

モデル特徴

双方向画像アテンション

モデルは画像パッチトークンに完全にアクセスでき、双方向アテンションマスクを使用することで、画像コンテンツをより良く理解できます。

因果的テキスト生成

次のテキストトークンを予測する際に、以前のテキストトークンにのみアクセス可能で、因果的アテンションマスクを使用し、一貫性のあるテキスト生成を保証します。

マルチタスク適応性

このモデルは画像キャプション生成、視覚的質問応答、画像分類など、さまざまな視覚言語タスクに使用できます。

モデル能力

画像キャプション生成

視覚的質問応答

画像分類

動画キャプション生成

使用事例

コンテンツ生成

自動画像タグ付け

画像に対して記述的なテキストを生成し、画像検索やコンテンツ管理に利用できます。

支援技術

視覚支援

視覚障害者向けに画像コンテンツのテキスト説明を提供します。

教育

視覚的学習支援

複雑な画像コンテンツを理解するのを学生に助け、説明テキストを生成します。

🚀 GIT (GenerativeImage2Text) ベースサイズ

GIT（GenerativeImage2Textの略）モデルのベースサイズ版です。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、このリポジトリで最初に公開されました。

免責事項: GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

GITは、CLIPの画像トークンとテキストトークンの両方に条件付けられたTransformerデコーダーです。このモデルは、大量の（画像、テキスト）ペアに対して「教師強制」を用いて学習されています。

モデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスでき（すなわち、双方向のアテンションマスクが使用されます）、次のテキストトークンを予測する際には、以前のテキストトークンのみにアクセスできます（すなわち、テキストトークンには因果的なアテンションマスクが使用されます）。

GITアーキテクチャ

これにより、モデルは以下のようなタスクに使用できます。

画像および動画のキャプション付け
画像および動画に対する視覚的質問応答（VQA）
画像分類（単に画像に条件付けて、モデルにテキストでクラスを生成させることで）

✨ 主な機能

想定される使用法と制限

生のモデルを画像キャプショニングに使用することができます。関心のあるタスクに関する微調整済みのバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📦 インストール

このREADMEにはインストール手順に関する具体的な内容がありませんので、このセクションは省略されます。

💻 使用例

このREADMEにはコード例が含まれていないため、このセクションは省略されます。

📚 ドキュメント

学習データ

論文からの引用:

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO (Lin et al., 2014)、Conceptual Captions (CC3M) (Sharma et al., 2018)、SBU (Ordonez et al., 2011)、Visual Genome (VG) (Krishna et al., 2016)、Conceptual Captions (CC12M) (Changpinyo et al., 2021)、ALT200M (Hu et al., 2021a)、およびHu et al. (2021a) と同様の収集手順に従った追加の0.6Bのデータが含まれます。

=> ただし、これは論文で「GIT」と呼ばれているモデルに関するもので、オープンソース化されていません。

このチェックポイントは「GIT - base」で、1000万の画像 - テキストペアで学習されたGITの小さなバリアントです。

詳細については、論文の表11を参照してください。