blip2-flan-t5-xxlオープンソースビジュアル言語モデル - 無料デプロイで画像からテキストへの変換を実現

ホーム

Blip2 Flan T5 Xxl

Salesforceによって開発

BLIP-2は画像エンコーダーと大規模言語モデルFlan T5-xxlを組み合わせた視覚言語モデルで、画像からテキストへのタスクに使用されます。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #画像キャプション生成 #視覚的質問応答 #凍結パラメータ訓練

ダウンロード数 6,419

リリース時間 : 2/9/2023

モデル概要

BLIP-2モデルは、画像エンコーダーとFlan T5-xxl言語モデルを凍結したまま、クエリ変換器（Q-Former）を訓練して画像とテキスト間の埋め込み空間のギャップを埋め、画像キャプション生成や視覚的質問応答などのタスクをサポートします。

モデル特徴

凍結済み事前学習モデル

画像エンコーダーと言語モデルを凍結したまま、クエリ変換器のみを訓練することで、訓練コストを削減。

マルチタスクサポート

画像キャプション生成、視覚的質問応答、チャットのような対話タスクをサポート。

効率的な埋め込み空間変換

クエリ変換器を通じて画像埋め込みを言語モデルが理解可能なクエリ埋め込みに変換。

モデル能力

画像キャプション生成

視覚的質問応答

画像テキスト対話

使用事例

画像理解

画像キャプション生成

入力画像に対して自然言語の説明を生成。

視覚的質問応答

画像内容に関する自然言語の質問に回答。

インタラクティブアプリケーション

画像対話システム

画像とテキスト入力を基に対話を生成。

🚀 BLIP-2, Flan T5-xxl, 事前学習のみ

BLIP-2モデルは、Flan T5-xxl（大規模言語モデル）を活用しています。このモデルは、Liらによる論文 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models で紹介され、このリポジトリで最初に公開されました。

免責事項: BLIP-2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

BLIP-2モデルは、画像とオプションのテキストを入力として、条件付きテキスト生成に使用できます。詳細なコード例や使用方法は、以下のセクションを参照してください。

✨ 主な機能

モデル概要

BLIP-2は3つのモデルで構成されています：CLIPのような画像エンコーダ、Querying Transformer (Q-Former)、および大規模言語モデル。

著者らは、画像エンコーダと大規模言語モデルの重みを事前学習済みのチェックポイントから初期化し、それらを凍結したままQuerying Transformerを学習させます。Querying Transformerは、BERTのようなTransformerエンコーダで、一連の「クエリトークン」をクエリ埋め込みにマッピングし、画像エンコーダの埋め込み空間と大規模言語モデルの間のギャップを埋めます。

このモデルの目標は、クエリ埋め込みと以前のテキストを与えられたときに、次のテキストトークンを予測することです。

drawing

これにより、モデルは以下のようなタスクに使用できます：

画像キャプショニング
視覚的質問応答 (VQA)
画像と以前の会話をプロンプトとしてモデルに入力することによるチャットのような会話

直接利用と下流利用

画像とオプションのテキストを与えた条件付きテキスト生成には、生のモデルを使用できます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

バイアス、リスク、制限、および倫理的考慮事項

BLIP2-FlanT5は、オフザシェルフのFlan-T5を言語モデルとして使用しています。これは、Flan-T5 から同じリスクと制限を引き継いでいます。

Raeら (2021) によると、Flan-T5を含む言語モデルは、有害な方法での言語生成に潜在的に使用される可能性があります。Flan-T5は、アプリケーション固有の安全性と公平性の懸念を事前に評価せずに、直接アプリケーションに使用してはなりません。

BLIP2は、インターネットから収集された画像-テキストデータセット（例：LAION）で微調整されています。その結果、モデル自体は、同等の不適切なコンテンツを生成したり、基礎となるデータに内在するバイアスを再現したりする可能性があります。

BLIP2は、実世界のアプリケーションでテストされていません。直接アプリケーションに展開してはなりません。研究者は、まず、展開する特定のコンテキストに関連するモデルの安全性と公平性を慎重に評価する必要があります。

倫理的考慮事項

このリリースは、学術論文をサポートするための研究目的のみです。当社のモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。このモデルを展開する前に、ユーザーは精度、安全性、および公平性に関する潜在的な懸念を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用可能な法律に準拠し、ユースケースを選択する際にベストプラクティスを活用することをお勧めします。特に、エラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオでは、これが重要です。ユースケースに関するさらなるガイダンスについては、当社のAUPおよびAI AUPを参照してください。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。必要に応じて、accelerate、bitsandbytes などの追加ライブラリもインストールすることができます。以下のコード例では、それぞれの環境に応じたインストール方法が示されています。

💻 使用例

基本的な使用法

コード例については、ドキュメントを参照するか、以下のスニペットをユースケースに応じて参照してください。

CPUでモデルを実行する

クリックして展開

import requests
from PIL import Image
from transformers import BlipProcessor, Blip2ForConditionalGeneration

processor = BlipProcessor.from_pretrained("Salesforce/blip2-flan-t5-xxl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xxl")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

GPUでモデルを実行する

フル精度で実行する

クリックして展開

# pip install accelerate
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xxl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xxl", device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

半精度 (`float16`) で実行する

クリックして展開

# pip install accelerate
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xxl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xxl", torch_dtype=torch.float16, device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

8ビット精度 (`int8`) で実行する

クリックして展開

# pip install accelerate bitsandbytes
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xxl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xxl", load_in_8bit=True, device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))