microsoft - git - baseオープンソース画像テキスト変換モデル - 無料でデプロイし、簡単に視覚コンテンツをテキストに変える

ホーム

Microsoft Git Base

seckmasterによって開発

GITはTransformerベースの生成的画像テキスト変換モデルで、視覚コンテンツをテキスト記述に変換できます。

画像生成テキスト

Safetensors

複数言語対応オープンソースライセンス:MIT #画像キャプション生成 #視覚的質問応答 #マルチモーダルトランスフォーマー

ダウンロード数 18

リリース時間 : 12/4/2024

モデル概要

GIT（GenerativeImage2Text）はCLIP画像トークンとテキストトークンを組み合わせたTransformerデコーダモデルで、教師強制方式で訓練され、画像キャプション生成や視覚的質問応答などのタスクを実行できます。

モデル特徴

双方向画像アテンション

モデルは画像パッチトークンに双方向アテンションマスクを使用し、画像コンテンツを十分に理解します。

因果的テキスト生成

テキスト生成時には以前のテキストトークンにのみアクセス可能で、一貫性のあるテキスト記述を生成します。

マルチタスクサポート

画像キャプション生成、視覚的質問応答、さらには画像分類など、さまざまなタスクに使用できます。

モデル能力

画像キャプション生成

視覚的質問応答

画像分類（テキスト生成経由）

動画キャプション生成

使用事例

コンテンツ生成

自動画像タグ付け

画像に正確なテキスト記述を生成

画像検索システムやアクセシビリティに利用可能

視覚的質問応答

画像コンテンツ質問応答

画像内容に関する自然言語質問に回答

インテリジェントアシスタントや教育アプリケーションに利用可能

🚀 GIT (GenerativeImage2Text)、ベースサイズ

GIT（GenerativeImage2Textの略）モデルのベースサイズ版です。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、このリポジトリで最初に公開されました。

免責事項：GITを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

モデルの説明

GITは、CLIP画像トークンとテキストトークンの両方を条件とするTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を使用して学習されています。

このモデルの目標は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスでき（すなわち、双方向の注意マスクが使用されます）、次のテキストトークンを予測する際には、以前のテキストトークンのみにアクセスできます（すなわち、テキストトークンには因果的な注意マスクが使用されます）。

GITアーキテクチャ

これにより、このモデルは以下のようなタスクに使用できます。

画像およびビデオのキャプション付け
画像およびビデオに対する視覚的質問応答（VQA）
画像分類（単に画像をモデルに入力し、テキストでクラスを生成させることで）

想定される用途と制限

生のモデルを画像キャプション付けに使用することができます。関心のあるタスクに関するファインチューニング済みのバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

学習データ

論文から引用：

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO（Linら、2014）、Conceptual Captions (CC3M)（Sharmaら、2018）、SBU（Ordonezら、2011）、Visual Genome (VG)（Krishnaら、2016）、Conceptual Captions (CC12M)（Changpinyoら、2021）、ALT200M（Huら、2021a）、およびHuら（2021a）と同様の収集手順に従った追加の0.6Bのデータが含まれます。

ただし、これは論文中で「GIT」と呼ばれているモデルに関するものであり、オープンソース化されていません。

このチェックポイントは「GIT - base」であり、1000万の画像 - テキストペアで学習されたGITの小さなバリアントです。詳細については、論文の表11を参照してください。