git-largeオープンソースモデル - 画像からテキスト生成を無料で実現する実用的なツール

Home

Git Large

Developed by microsoft

GITはCLIP画像トークンとテキストトークンの双条件トランスフォーマーデコーダーで、画像からテキストへの生成タスクに使用されます

画像生成テキスト

Transformers

Supports Multiple LanguagesOpen Source License:MIT #画像キャプション生成 #視覚的質問応答 #マルチモーダルトランスフォーマー

Downloads 1,404

Release Time : 1/2/2023

Model Overview

GITは生成的画像からテキストへのトランスフォーマーモデルで、画像キャプション生成、視覚的質問応答、画像分類などのタスクを実行できます。双方向アテンションで画像トークンを処理し、因果的アテンションでテキストトークンを処理します。

Model Features

双モーダル処理

画像とテキストトークンを同時に処理し、異なるアテンション機構を使用

マルチタスク能力

単一モデルで複数の視覚言語タスクを実行可能

大規模事前学習

2000万の画像テキストペアで訓練（大規模版は8億データで訓練）

Model Capabilities

画像キャプション生成

視覚的質問応答

画像分類

動画キャプション生成

動画質問応答

Use Cases

コンテンツ生成

自動画像説明

画像の自然言語説明を生成

画像内容を正確に記述するテキストを生成可能

視覚的理解

画像質問応答システム

画像内容に関する自然言語質問に回答

画像内容に関する様々な質問に正しく回答可能

コンテンツ分類

ゼロショット画像分類

カテゴリテキストを生成して画像を分類

特定の訓練なしで分類可能

🚀 GIT (GenerativeImage2Text) 大型版

GIT（GenerativeImage2Textの略）モデルの大型版です。このモデルは、Wangらによる論文 GIT: A Generative Image-to-text Transformer for Vision and Language で紹介され、このリポジトリで最初に公開されました。

免責事項：GITを公開したチームはこのモデルに対するモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

GITは、CLIPの画像トークンとテキストトークンの両方を条件とするTransformerデコーダです。このモデルは、多数の（画像、テキスト）ペアに対して「教師強制」を用いて学習されています。

モデルの目的は、画像トークンと以前のテキストトークンを与えられたときに、次のテキストトークンを予測することです。

モデルは画像パッチトークンに完全にアクセスでき（すなわち、双方向のアテンションマスクが使用されます）、次のテキストトークンを予測する際には、以前のテキストトークンのみにアクセスできます（すなわち、テキストトークンには因果的なアテンションマスクが使用されます）。

GITアーキテクチャ

これにより、このモデルは以下のようなタスクに使用できます。

画像および動画のキャプション付け
画像および動画に対する視覚的質問応答（VQA）
画像分類（単にモデルに画像を与え、そのクラスをテキストで生成させることで）

✨ 主な機能

想定される使用目的と制限

生のモデルを画像キャプション付けに使用することができます。関心のあるタスクに関する微調整されたバージョンを探すには、モデルハブを参照してください。

使用方法

コード例については、ドキュメントを参照してください。

📦 インストール

このREADMEにはインストール手順に関する具体的な内容がありませんので、このセクションは省略されます。

📚 ドキュメント

学習データ

論文からの引用：

事前学習のために0.8Bの画像 - テキストペアを収集しました。これには、COCO（Lin et al., 2014）、Conceptual Captions (CC3M)（Sharma et al., 2018）、SBU（Ordonez et al., 2011）、Visual Genome (VG)（Krishna et al., 2016）、Conceptual Captions (CC12M)（Changpinyo et al., 2021）、ALT200M（Hu et al., 2021a）、およびHu et al. (2021a) と同様の収集手順に従った追加の0.6Bのデータが含まれます。

ただし、これは論文で「GIT」と呼ばれているモデルに関するもので、オープンソース化されていません。

このチェックポイントは「GIT-large」で、2000万の画像 - テキストペアで学習されたGITの小型バリアントです。詳細については、論文の表11を参照してください。