blip2-flan-t5-xl開源視覺語言模型 - 免費生成圖像描述，實現視覺問答

首頁

Blip2 Flan T5 Xl

由Salesforce開發

BLIP-2是基於Flan T5-xl的視覺語言模型，通過凍結圖像編碼器和大型語言模型進行預訓練，支持圖像描述生成和視覺問答等任務。

圖像生成文本

Transformers

英語開源協議:MIT #圖像描述生成 #視覺問答 #凍結參數訓練

下載量 91.77k

發布時間 : 2/6/2023

模型概述

BLIP-2包含圖像編碼器、查詢轉換器和大型語言模型，通過訓練查詢轉換器來彌合圖像和文本之間的嵌入空間差距，可用於圖像描述生成、視覺問答等任務。

模型特點

凍結預訓練模型

保持圖像編碼器和大型語言模型的權重凍結，僅訓練查詢轉換器，提高訓練效率。

多任務支持

支持圖像描述生成、視覺問答和類似聊天的對話等多種任務。

查詢轉換器

使用類似BERT的查詢轉換器將查詢標記映射為查詢嵌入，彌合圖像和文本的嵌入空間差距。

模型能力

圖像描述生成

視覺問答

圖像文本對話

使用案例

圖像理解

圖像描述生成

根據輸入圖像生成描述性文本。

視覺問答

回答關於圖像內容的自然語言問題。

交互式應用

圖像對話

基於圖像和文本提示進行類似聊天的對話。

🚀 BLIP-2, Flan T5-xl，僅預訓練版本

BLIP-2模型藉助了Flan T5-xl（一個大語言模型）的能力。該模型由Li等人在論文BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models中提出，並首次在此倉庫中發佈。

聲明：發佈BLIP-2的團隊並未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊撰寫。

✨ 主要特性

多任務處理：可用於圖像描述、視覺問答以及類似聊天的對話等任務。
模型架構：由類似CLIP的圖像編碼器、查詢變換器（Q-Former）和大語言模型組成。
遷移學習：初始化圖像編碼器和大語言模型的權重時使用預訓練檢查點，並在訓練查詢變換器時保持它們凍結。

📚 詳細文檔

模型描述

BLIP-2由3個模型組成：一個類似CLIP的圖像編碼器、一個查詢變換器（Q-Former）和一個大語言模型。

作者從預訓練檢查點初始化圖像編碼器和大語言模型的權重，並在訓練查詢變換器時保持它們凍結。查詢變換器是一個類似BERT的變換器編碼器，它將一組“查詢令牌”映射到查詢嵌入，以彌合圖像編碼器和大語言模型嵌入空間之間的差距。

該模型的目標很簡單，即根據查詢嵌入和之前的文本預測下一個文本令牌。

BLIP-2架構

這使得該模型可用於以下任務：

圖像描述
視覺問答（VQA）
通過將圖像和之前的對話作為提示輸入模型進行類似聊天的對話

直接使用和下游使用

你可以使用原始模型根據圖像和可選文本進行條件文本生成。請查看模型中心以查找針對你感興趣的任務進行微調的版本。

偏差、風險、侷限性和倫理考量

BLIP2-FlanT5使用現成的Flan-T5作為語言模型，它繼承了Flan-T5相同的風險和侷限性：

根據Rae等人（2021）的研究，包括Flan-T5在內的語言模型有可能被用於有害的語言生成。在沒有事先評估特定應用的安全性和公平性問題的情況下，不應直接將Flan-T5用於任何應用。

BLIP2在從互聯網收集的圖像文本數據集（如LAION）上進行了微調。因此，該模型本身可能容易生成不適當的內容，或複製底層數據中固有的偏差。

BLIP2尚未在現實世界的應用中進行測試，不應直接部署到任何應用中。研究人員應首先仔細評估該模型在特定部署環境中的安全性和公平性。

倫理考量

此版本僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途而設計或評估。我們強烈建議用戶在部署此模型之前評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性，遵守適用法律，並在選擇用例時採用最佳實踐，特別是在錯誤或濫用可能會對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導，請參考我們的使用協議和人工智能使用協議。

💻 使用示例

基礎用法

有關代碼示例，請參考文檔。

在CPU上運行模型

點擊展開

import requests
from PIL import Image
from transformers import BlipProcessor, Blip2ForConditionalGeneration

processor = BlipProcessor.from_pretrained("Salesforce/blip2-flan-t5-xl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xl")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

在GPU上運行模型

全精度

點擊展開

# pip install accelerate
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xl", device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

半精度（`float16`）

點擊展開

# pip install accelerate
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xl", torch_dtype=torch.float16, device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

8位精度（`int8`）

點擊展開

# pip install accelerate bitsandbytes
import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xl")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xl", load_in_8bit=True, device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))