blip2-opt-6.7b-cocoオープンソース視覚言語モデル - 無料で画像テキスト生成と質問応答を実現

ホーム

Blip2 Opt 6.7b Coco

Salesforceによって開発

BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキスト生成や視覚的質問応答タスクに使用されます。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #凍結パラメータのクロスモーダルトレーニング #視覚言語生成 #ゼロショット画像キャプション

ダウンロード数 216.79k

リリース時間 : 2/7/2023

モデル概要

BLIP-2モデルは凍結された画像エンコーダーと大規模言語モデル(OPT-6.7b)を採用し、クエリ変換器(Q-Former)で両者を橋渡しすることで、効率的な視覚言語事前学習を実現しています。

モデル特徴

効率的なクロスモーダル学習

事前学習済みの画像エンコーダーと言語モデルを凍結し、軽量なクエリ変換器のみを訓練することで、効率的なクロスモーダル学習を実現

多機能アプリケーション

画像キャプション生成、視覚的質問応答、画像ベースの対話など、様々なタスクをサポート

大規模事前学習

OPT-6.7b大規模言語モデルとCLIP画像エンコーダーを基盤としており、強力な表現能力を備えている

モデル能力

画像からテキスト生成

視覚的質問応答

画像ベースの対話

クロスモーダル理解

使用事例

コンテンツ生成

自動画像キャプション

画像に対して自然言語の説明を生成

視覚障害者支援やコンテンツタグ付けに利用可能

インテリジェントインタラクション

視覚的質問応答システム

画像内容に関する自然言語質問に回答

教育やカスタマーサポートなどのシナリオで利用可能

🚀 BLIP-2, OPT-6.7b, COCOでファインチューニング済み

BLIP-2モデルは、OPT-6.7b（67億のパラメータを持つ大規模言語モデル）を活用しています。このモデルは、Liらによる論文BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Modelsで紹介され、最初はthis repositoryで公開されました。

免責事項: BLIP-2をリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

BLIP-2は、画像と任意のテキストを与えられた条件付きテキスト生成に生モデルを使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

モデルの説明

BLIP-2は3つのモデルで構成されています：CLIPのような画像エンコーダ、Querying Transformer (Q-Former)、および大規模言語モデル。

著者らは、画像エンコーダと大規模言語モデルの重みを事前学習済みのチェックポイントから初期化し、それらを凍結したままQuerying Transformerを学習させます。Querying Transformerは、BERTのようなTransformerエンコーダで、一連の「クエリトークン」をクエリ埋め込みにマッピングします。これにより、画像エンコーダの埋め込み空間と大規模言語モデルの間のギャップを埋めます。

モデルの目標は、クエリ埋め込みと以前のテキストを与えられたときに、次のテキストトークンを予測することです。

drawing

これにより、モデルは以下のようなタスクに使用できます：

画像キャプション生成
視覚的質問応答 (VQA)
画像と以前の会話をプロンプトとしてモデルに入力することによるチャットのような会話

直接利用と下流利用

画像と任意のテキストを与えた条件付きテキスト生成に生モデルを使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

バイアス、リスク、制限、および倫理的考慮事項

BLIP2-OPTは、オフザシェルフのOPTを言語モデルとして使用しています。これは、Metaのモデルカードで述べられている同じリスクと制限を引き継いでいます。

他の大規模言語モデルと同様に、学習データの多様性（またはその欠如）がモデルの品質に下流的な影響を与えるため、OPT-175Bにはバイアスと安全性の面で制限があります。OPT-175Bは、生成の多様性と幻覚の面でも品質問題を抱える可能性があります。一般的に、OPT-175Bは、現代の大規模言語モデルに見られる多くの問題から免れることはできません。

BLIP2は、インターネットから収集された画像テキストデータセット（例：LAION）でファインチューニングされています。その結果、モデル自体は、同等の不適切なコンテンツを生成したり、基盤となるデータに内在するバイアスを再現したりする可能性があります。

BLIP2は実世界のアプリケーションでテストされていません。いかなるアプリケーションにも直接展開すべきではありません。研究者は、まずモデルの安全性と公平性を、展開する特定のコンテキストに関連して慎重に評価する必要があります。

倫理的考慮事項

このリリースは、学術論文をサポートするための研究目的のみです。当社のモデル、データセット、およびコードは、すべての下流目的に特に設計または評価されていません。ユーザーは、このモデルを展開する前に、精度、安全性、および公平性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用可能な法律に準拠し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオでは、ベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPおよびAI AUPを参照してください。