blip2-opt-2.7bオープンソース視覚言語モデル - 画像からテキストへの効率的な生成を無料で実現

ホーム

Blip2 Opt 2.7b

Salesforceによって開発

BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキストを生成するタスクに使用されます。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #画像キャプション生成 #視覚的質問応答 #凍結事前学習モデル

ダウンロード数 867.78k

リリース時間 : 2/6/2023

モデル概要

BLIP-2モデルは、画像エンコーダーと言語モデルを凍結したまま、クエリ変換器を訓練して両者を橋渡しし、画像キャプション生成や視覚的質問応答などのタスクをサポートします。

モデル特徴

凍結事前学習モデル

画像エンコーダーと言語モデルを凍結したまま、クエリ変換器のみを訓練することで、事前学習モデルの能力を効果的に活用します。

マルチタスクサポート

画像キャプション生成、視覚的質問応答、画像ベースの対話など、様々なタスクをサポートします。

効率的な訓練

クエリ変換器を用いて異なるモダリティを橋渡しすることで、訓練コストを削減しつつ高性能を維持します。

モデル能力

画像キャプション生成

視覚的質問応答(VQA)

画像ベースの対話

使用事例

コンテンツ生成

自動画像キャプション

画像に対して記述的なテキストを生成し、アクセシビリティやコンテンツ管理に活用できます。

インテリジェントインタラクション

視覚的質問応答システム

ユーザーの画像内容に関する自然言語の質問に回答します。

🚀 BLIP-2, OPT-2.7b, 事前学習のみ

BLIP-2モデルは、OPT-2.7b（27億のパラメータを持つ大規模言語モデル）を活用しています。このモデルは、Liらによる論文 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models で紹介され、このリポジトリで最初に公開されました。

免責事項: BLIP-2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

📚 ドキュメント

モデルの説明

BLIP-2は3つのモデルで構成されています：CLIPのような画像エンコーダ、Querying Transformer（Q-Former）、および大規模言語モデル。

著者らは、画像エンコーダと大規模言語モデルの重みを事前学習済みのチェックポイントから初期化し、それらを凍結したままQuerying Transformerを学習させます。Querying Transformerは、一連の「クエリトークン」をクエリ埋め込みにマッピングするBERTのようなTransformerエンコーダで、画像エンコーダの埋め込み空間と大規模言語モデルの間のギャップを埋めます。

このモデルの目標は、クエリ埋め込みと以前のテキストを与えられたときに、次のテキストトークンを予測することです。

drawing

これにより、モデルは以下のようなタスクに使用できます：

画像キャプショニング
視覚的質問応答（VQA）
画像と以前の会話をプロンプトとしてモデルに入力することによるチャットのような会話

直接利用と下流利用

画像とオプションのテキストを与えて条件付きテキスト生成に生のモデルを使用することができます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

バイアス、リスク、制限、および倫理的考慮事項

BLIP2-OPTは、オフザシェルフのOPTを言語モデルとして使用しています。これは、Metaのモデルカードで述べられているのと同じリスクと制限を引き継いでいます。

訓練データの多様性（またはその欠如）がモデルの品質に下流的な影響を与える他の大規模言語モデルと同様に、OPT-175Bにはバイアスと安全性の面で制限があります。OPT-175Bはまた、生成の多様性と幻覚の面で品質問題を抱える可能性があります。一般的に、OPT-175Bは、現代の大規模言語モデルを悩ませる数多くの問題から免れることはできません。

BLIP2は、インターネットから収集された画像テキストデータセット（例：LAION ）で微調整されています。その結果、モデル自体は、同等の不適切なコンテンツを生成したり、基礎となるデータに内在するバイアスを再現したりする可能性があります。

BLIP2は実世界のアプリケーションでテストされていません。いかなるアプリケーションにも直接展開すべきではありません。研究者は、まずモデルの安全性と公平性を、展開する特定のコンテキストに関連して慎重に評価する必要があります。

倫理的考慮事項

このリリースは学術論文をサポートするための研究目的のみです。当社のモデル、データセット、およびコードは、すべての下流目的に特に設計または評価されていません。ユーザーは、このモデルを展開する前に、精度、安全性、および公平性に関連する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPとAI AUPを参照してください。

使い方

コード例については、ドキュメントを参照してください。

メモリ要件

メモリ要件は使用する精度によって異なります。Bitsandbytes を使用して4ビット推論を行うことができ、これによりメモリ要件を大幅に削減することができます。

データ型	最大のレイヤーまたは残差グループ	合計サイズ	Adamを使用した学習
float32	490.94 MB	14.43 GB	57.72 GB
float16/bfloat16	245.47 MB	7.21 GB	28.86 GB
int8	122.73 MB	3.61 GB	14.43 GB
int4	61.37 MB	1.8 GB	7.21 GB

CPUでのモデルの実行

展開するにはクリック

import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())

GPUでのモデルの実行

フル精度で

展開するにはクリック

# pip install accelerate
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())

半精度（`float16`）で

展開するにはクリック

# pip install accelerate
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16, device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())

8ビット精度（`int8`）で

展開するにはクリック

# pip install accelerate bitsandbytes
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", load_in_8bit=True, device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())