模型概述
模型特點
模型能力
使用案例
🚀 BLIP-2, OPT-2.7b,僅預訓練版本
BLIP-2模型藉助了OPT-2.7b(一個擁有27億參數的大語言模型)。該模型由Li等人在論文BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models中提出,並首次在此倉庫發佈。
聲明:發佈BLIP-2的團隊並未為此模型撰寫模型卡片,此模型卡片由Hugging Face團隊撰寫。
✨ 主要特性
BLIP-2模型可用於圖像描述、視覺問答(VQA)以及類聊天對話等任務,通過將圖像和之前的對話作為提示輸入模型,實現多模態交互。
📚 詳細文檔
模型描述
BLIP-2由3個模型組成:一個類似CLIP的圖像編碼器、一個查詢變換器(Q-Former)和一個大語言模型。
作者從預訓練檢查點初始化圖像編碼器和大語言模型的權重,並在訓練查詢變換器時保持它們凍結。查詢變換器是一個類似BERT的變換器編碼器,它將一組“查詢令牌”映射到查詢嵌入,從而彌合圖像編碼器和大語言模型嵌入空間之間的差距。
該模型的目標很簡單,即根據查詢嵌入和之前的文本預測下一個文本令牌。
這使得該模型可用於以下任務:
- 圖像描述
- 視覺問答(VQA)
- 通過將圖像和之前的對話作為提示輸入模型進行類聊天對話
直接使用和下游使用
你可以使用原始模型,根據圖像和可選文本進行條件文本生成。請查看模型中心,以查找針對你感興趣的任務進行微調的版本。
偏差、風險、侷限性和倫理考量
BLIP2-OPT使用現成的OPT作為語言模型,它繼承了Meta模型卡片中提到的相同風險和侷限性。
與其他大語言模型一樣,訓練數據的多樣性(或缺乏多樣性)會對模型質量產生下游影響,OPT-175B在偏差和安全性方面存在侷限性。OPT-175B在生成多樣性和幻覺方面也可能存在質量問題。一般來說,OPT-175B無法避免困擾現代大語言模型的諸多問題。
BLIP2在從互聯網收集的圖像 - 文本數據集(例如LAION)上進行了微調。因此,該模型本身可能容易生成同樣不適當的內容,或複製底層數據中固有的偏差。
BLIP2尚未在現實世界應用中進行測試,不應直接部署到任何應用程序中。研究人員應首先仔細評估該模型在特定部署環境中的安全性和公平性。
倫理考量
本次發佈僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途設計或評估。我們強烈建議用戶在部署此模型之前,評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性,遵守適用法律,並在選擇用例時採用最佳實踐,特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的進一步指導,請參考我們的使用協議和人工智能使用協議。
💻 使用示例
基礎用法
對於代碼示例,請參考文檔。
高級用法
在CPU上運行模型
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b")
img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt")
out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())
在GPU上運行模型
全精度
# pip install accelerate
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", device_map="auto")
img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda")
out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())
半精度(float16
)
# pip install accelerate
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16, device_map="auto")
img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)
out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())
8位精度(int8
)
# pip install accelerate bitsandbytes
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", load_in_8bit=True, device_map="auto")
img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)
out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True).strip())
🔧 技術細節
內存要求
內存要求根據使用的精度而有所不同。可以使用Bitsandbytes進行4位推理,這將大大降低內存要求。
數據類型 | 最大層或殘差組 | 總大小 | 使用Adam進行訓練 |
---|---|---|---|
float32 | 490.94 MB | 14.43 GB | 57.72 GB |
float16/bfloat16 | 245.47 MB | 7.21 GB | 28.86 GB |
int8 | 122.73 MB | 3.61 GB | 14.43 GB |
int4 | 61.37 MB | 1.8 GB | 7.21 GB |
📄 許可證
本項目採用MIT許可證。








