blip2-opt-6.7b開源視覺語言模型 - 免費實現圖像文本生成與視覺問答

首頁

Blip2 Opt 6.7b

由merve開發

BLIP-2 是一種視覺語言模型，結合了圖像編碼器和大型語言模型，用於圖像到文本生成和視覺問答任務。

圖像生成文本

Transformers

英語開源協議:MIT #圖像描述生成 #視覺問答 #凍結參數訓練

下載量 26

發布時間 : 10/4/2023

模型概述

BLIP-2 包含一個圖像編碼器、查詢轉換器（Q-Former）和一個大型語言模型（OPT-6.7b），通過凍結圖像編碼器和語言模型，訓練查詢轉換器來實現圖像到文本的生成。

模型特點

凍結預訓練模型

圖像編碼器和大型語言模型（OPT-6.7b）的權重保持凍結，僅訓練查詢轉換器，減少計算資源需求。

多任務支持

支持圖像描述生成、視覺問答和圖像對話等多種任務。

高效嵌入空間橋接

通過查詢轉換器（Q-Former）將圖像編碼器的輸出映射到語言模型的嵌入空間。

模型能力

圖像到文本生成

視覺問答

圖像對話

使用案例

圖像理解

圖像描述生成

為輸入的圖像生成自然語言描述。

視覺問答

根據圖像內容回答相關問題。

交互式應用

圖像對話

基於圖像和對話歷史進行多輪對話。

🚀 BLIP-2, OPT-6.7b，僅預訓練版本

BLIP-2模型藉助了OPT-6.7b（一個擁有67億參數的大語言模型）。該模型由Li等人在論文BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models中提出，並首次在此倉庫發佈。

免責聲明：發佈BLIP-2的團隊並未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊撰寫。

🚀 快速開始

你可以使用原始模型，根據給定的圖像和可選文本進行條件文本生成。可以在模型中心查找針對你感興趣的任務進行微調後的版本。

✨ 主要特性

多任務處理：可用於圖像描述、視覺問答（VQA）以及類似聊天的對話等任務。
架構創新：由類似CLIP的圖像編碼器、查詢變換器（Q-Former）和大語言模型組成。

📚 詳細文檔

模型描述

BLIP-2由3個模型組成：一個類似CLIP的圖像編碼器、一個查詢變換器（Q-Former）和一個大語言模型。

作者從預訓練的檢查點初始化圖像編碼器和大語言模型的權重，並在訓練查詢變換器時保持它們凍結。查詢變換器是一個類似BERT的變換器編碼器，它將一組“查詢令牌”映射到查詢嵌入，從而彌合圖像編碼器的嵌入空間和大語言模型之間的差距。

該模型的目標很簡單，即根據查詢嵌入和之前的文本預測下一個文本令牌。

模型架構

這使得該模型可用於以下任務：

圖像描述
視覺問答（VQA）
通過將圖像和之前的對話作為提示輸入到模型中進行類似聊天的對話

直接使用和下游使用

你可以使用原始模型，根據給定的圖像和可選文本進行條件文本生成。可以在模型中心查找針對你感興趣的任務進行微調後的版本。

偏差、風險、侷限性和倫理考量

BLIP2-OPT使用現成的OPT作為語言模型，它繼承了Meta模型卡片中提到的相同風險和侷限性。

與其他大語言模型一樣，訓練數據的多樣性（或缺乏多樣性）會對我們模型的質量產生下游影響，OPT-175B在偏差和安全性方面存在侷限性。OPT-175B在生成多樣性和幻覺方面也可能存在質量問題。一般來說，OPT-175B無法避免困擾現代大語言模型的諸多問題。

BLIP2在從互聯網收集的圖像 - 文本數據集（例如LAION）上進行了微調。因此，該模型本身可能容易生成同樣不適當的內容，或者複製底層數據中固有的偏差。

BLIP2尚未在現實世界的應用中進行測試，不應直接部署到任何應用程序中。研究人員應首先仔細評估該模型在其部署的特定環境中的安全性和公平性。

如何使用

關於代碼示例，請參考文檔。

📄 許可證

本項目採用MIT許可證。

屬性	詳情
模型類型	圖像到文本生成模型
訓練數據	從互聯網收集的圖像 - 文本數據集，如LAION

⚠️ 重要提示

BLIP2尚未在現實世界的應用中進行測試，不應直接部署到任何應用程序中。研究人員應首先仔細評估該模型在其部署的特定環境中的安全性和公平性。

💡 使用建議

可以在模型中心查找針對你感興趣的任務進行微調後的版本。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫