🚀 BLIP-2, OPT-2.7b, 事前学習のみ
BLIP-2モデルは、OPT-2.7b(27億のパラメータを持つ大規模言語モデル)を活用しています。
このモデルは、Liらによる論文 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models で紹介され、このリポジトリ で最初に公開されました。
免責事項: BLIP-2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。
📚 ドキュメント
モデルの説明
BLIP-2は3つのモデルで構成されています:CLIPのような画像エンコーダ、Querying Transformer(Q-Former)、および大規模言語モデル。
著者らは、画像エンコーダと大規模言語モデルの重みを事前学習済みのチェックポイントから初期化し、それらを凍結したままQuerying Transformerを学習させます。Querying Transformerは、一連の「クエリトークン」をクエリ埋め込みにマッピングするBERTのようなTransformerエンコーダで、画像エンコーダの埋め込み空間と大規模言語モデルの間のギャップを埋めます。
このモデルの目標は、クエリ埋め込みと以前のテキストを与えられたときに、次のテキストトークンを予測することです。

これにより、モデルは以下のようなタスクに使用できます:
- 画像キャプショニング
- 視覚的質問応答(VQA)
- 画像と以前の会話をプロンプトとしてモデルに入力することによるチャットのような会話
直接利用と下流利用
画像とオプションのテキストを与えて条件付きテキスト生成に生のモデルを使用することができます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブ を参照してください。
バイアス、リスク、制限、および倫理的考慮事項
BLIP2-OPTは、オフザシェルフのOPTを言語モデルとして使用しています。これは、Metaのモデルカードで述べられているのと同じリスクと制限を引き継いでいます。
訓練データの多様性(またはその欠如)がモデルの品質に下流的な影響を与える他の大規模言語モデルと同様に、OPT-175Bにはバイアスと安全性の面で制限があります。OPT-175Bはまた、生成の多様性と幻覚の面で品質問題を抱える可能性があります。一般的に、OPT-175Bは、現代の大規模言語モデルを悩ませる数多くの問題から免れることはできません。
BLIP2は、インターネットから収集された画像テキストデータセット(例:LAION )で微調整されています。その結果、モデル自体は、同等の不適切なコンテンツを生成したり、基礎となるデータに内在するバイアスを再現したりする可能性があります。
BLIP2は実世界のアプリケーションでテストされていません。いかなるアプリケーションにも直接展開すべきではありません。研究者は、まずモデルの安全性と公平性を、展開する特定のコンテキストに関連して慎重に評価する必要があります。
倫理的考慮事項
このリリースは学術論文をサポートするための研究目的のみです。当社のモデル、データセット、およびコードは、すべての下流目的に特に設計または評価されていません。ユーザーは、このモデルを展開する前に、精度、安全性、および公平性に関連する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPとAI AUPを参照してください。
使い方
コード例については、ドキュメント を参照してください。
メモリ要件
メモリ要件は使用する精度によって異なります。Bitsandbytes を使用して4ビット推論を行うことができ、これによりメモリ要件を大幅に削減することができます。
データ型 |
最大のレイヤーまたは残差グループ |
合計サイズ |
Adamを使用した学習 |
float32 |
490.94 MB |
14.43 GB |
57.72 GB |
float16/bfloat16 |
245.47 MB |
7.21 GB |
28.86 GB |
int8 |
122.73 MB |
3.61 GB |
14.43 GB |
int4 |
61.37 MB |
1.8 GB |
7.21 GB |
CPUでのモデルの実行
展開するにはクリック
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b")
img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt")
out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())
GPUでのモデルの実行
フル精度で
展開するにはクリック
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", device_map="auto")
img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda")
out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())
半精度(float16
)で
展開するにはクリック
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16, device_map="auto")
img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)
out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())
8ビット精度(int8
)で
展開するにはクリック
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", load_in_8bit=True, device_map="auto")
img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)
out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())
📄 ライセンス
このモデルはMITライセンスの下で提供されています。