BLIP2-OPT-6.7b_8bitオープンソース視覚言語モデル - 画像を無料でテキストに変換

ホーム

Blip2 Opt 6.7b 8bit

Mediocreatmybestによって開発

BLIP-2は画像エンコーダーと大規模言語モデル(OPT-6.7b)を組み合わせた視覚言語モデルで、画像からテキストを生成するタスクに使用されます。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #画像キャプション生成 #視覚的質問応答 #凍結パラメータ訓練

ダウンロード数 16

リリース時間 : 7/8/2023

モデル概要

BLIP-2は画像エンコーダー、クエリトランスフォーマー、大規模言語モデル(OPT-6.7b)を含み、画像キャプション生成や視覚的質問応答などのタスクが可能です。

モデル特徴

凍結プレトレインモデル

画像エンコーダーと言語モデルの重みを凍結したまま、クエリトランスフォーマーのみを訓練

クロスモーダルブリッジング

クエリトランスフォーマー(Q-Former)を通じて視覚と言語モダリティを接続

効率的な訓練

少数のパラメータのみを訓練することでクロスモーダルアラインメントを実現

量子化サポート

8ビット/fp4/float16など多様な量子化方式をサポート

モデル能力

画像キャプション生成

視覚的質問応答(VQA)

画像ベースの対話

画像からテキスト変換

使用事例

コンテンツ生成

自動画像タグ付け

画像に対して記述的なテキストを生成

質問応答システム

視覚的質問応答

画像内容に関する質問に回答

アクセシビリティ

視覚支援

視覚障害者向けに画像内容を説明

🚀 BLIP-2, OPT-6.7b, 事前学習のみ

BLIP-2モデルは、OPT-6.7b（67億のパラメータを持つ大規模言語モデル）を活用しています。このモデルは、Liらによる論文 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models で紹介され、このリポジトリで最初に公開されました。

免責事項: BLIP-2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは、画像と任意のテキストを与えて条件付きテキスト生成に使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

bitsandbytes を使用した量子化
8-bit / fp4 / float16 / Safetensors
画像キャプショニング、視覚的質問応答（VQA）、チャットのような会話などのタスクに使用可能

📚 ドキュメント

モデルの説明

BLIP-2は、3つのモデルで構成されています。CLIPのような画像エンコーダ、Querying Transformer（Q-Former）、および大規模言語モデルです。

著者らは、画像エンコーダと大規模言語モデルの重みを事前学習済みのチェックポイントから初期化し、それらを凍結したまま、Querying Transformerを学習させます。Querying Transformerは、BERTのようなTransformerエンコーダで、一連の「クエリトークン」をクエリ埋め込みにマッピングし、画像エンコーダの埋め込み空間と大規模言語モデルの間のギャップを埋めます。

このモデルの目標は、クエリ埋め込みと以前のテキストを与えて、次のテキストトークンを予測することです。

drawing

これにより、このモデルは次のようなタスクに使用できます。

画像キャプショニング
視覚的質問応答（VQA）
画像と以前の会話をプロンプトとしてモデルに入力することによるチャットのような会話

直接利用と下流利用

画像と任意のテキストを与えて、生のモデルを条件付きテキスト生成に使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

バイアス、リスク、制限、および倫理的考慮事項

BLIP2-OPTは、既存のOPTを言語モデルとして使用しています。Metaのモデルカードで述べられているとおり、同じリスクと制限を引き継いでいます。

トレーニングデータの多様性（またはその欠如）がモデルの品質に下流的な影響を与える他の大規模言語モデルと同様に、OPT-175Bにはバイアスと安全性の面で制限があります。OPT-175Bは、生成の多様性と幻覚の面でも品質問題を抱える可能性があります。一般的に、OPT-175Bは、現代の大規模言語モデルを悩ませる数多くの問題から免れることはできません。

BLIP2は、インターネットから収集された画像テキストデータセット（例：LAION）でファインチューニングされています。その結果、モデル自体は、同等の不適切なコンテンツを生成したり、基盤となるデータに内在するバイアスを再現したりする可能性があります。

BLIP2は、実世界のアプリケーションでテストされていません。いかなるアプリケーションにも直接デプロイしてはいけません。研究者は、まず、モデルがデプロイされる特定のコンテキストに関して、モデルの安全性と公平性を慎重に評価する必要があります。