blip2-opt-6.7b開源視覺語言模型 - 免費實現圖像文本生成與視覺問答

首頁

Blip2 Opt 6.7b

由Salesforce開發

BLIP-2是基於OPT-6.7b的視覺語言模型，通過凍結圖像編碼器和大型語言模型進行預訓練，支持圖像到文本生成和視覺問答等任務。

圖像生成文本

Transformers

英語開源協議:MIT #圖像描述生成 #視覺問答 #多模態融合

下載量 5,871

發布時間 : 2/7/2023

模型概述

BLIP-2包含CLIP圖像編碼器、查詢轉換器(Q-Former)和OPT-6.7b語言模型，通過查詢轉換器橋接視覺和語言模態，實現圖像條件下的文本生成。

模型特點

跨模態預訓練

通過凍結預訓練的圖像編碼器和語言模型，僅訓練查詢轉換器來橋接視覺和語言模態

高效架構設計

使用輕量級Q-Former轉換器連接視覺和語言模型，減少訓練參數同時保持強大性能

多任務支持

單一模型支持圖像描述生成、視覺問答和基於圖像的對話等多種視覺語言任務

模型能力

圖像到文本生成

視覺問答

圖像條件對話

多模態理解

使用案例

內容生成

自動圖像描述

為圖像生成自然語言描述

可生成準確描述圖像內容的文本

智能交互

視覺問答系統

回答關於圖像內容的自然語言問題

能理解圖像內容並回答相關問題

輔助技術

視覺輔助工具

為視障人士描述圖像內容

提供圖像內容的詳細語音描述

🚀 BLIP-2, OPT-6.7b，僅預訓練版本

BLIP-2模型藉助了 OPT-6.7b（一個擁有67億參數的大語言模型）。它由Li等人在論文 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 中提出，並首次在此倉庫發佈。

免責聲明：發佈BLIP-2的團隊未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊撰寫。

✨ 主要特性

多任務能力：可用於圖像描述、視覺問答、類聊天對話等多種任務。
架構創新：由圖像編碼器、查詢變換器（Q-Former）和大語言模型組成，通過查詢變換器彌合圖像編碼器和大語言模型嵌入空間的差距。

📚 詳細文檔

模型描述

BLIP-2由3個模型組成：一個類似CLIP的圖像編碼器、一個查詢變換器（Q-Former）和一個大語言模型。

作者從預訓練檢查點初始化圖像編碼器和大語言模型的權重，並在訓練查詢變換器時保持它們凍結。查詢變換器是一個類似BERT的變換器編碼器，它將一組“查詢令牌”映射到查詢嵌入，從而彌合圖像編碼器和大語言模型嵌入空間之間的差距。

該模型的目標很簡單，即在給定查詢嵌入和前文的情況下，預測下一個文本令牌。

模型架構

這使得該模型可用於以下任務：

圖像描述
視覺問答（VQA）
通過將圖像和之前的對話作為提示輸入模型進行類聊天對話

直接使用和下游使用

你可以使用原始模型在給定圖像和可選文本的情況下進行條件文本生成。請查看模型中心以查找針對你感興趣的任務進行微調的版本。

偏差、風險、侷限性和倫理考量

BLIP2-OPT使用現成的OPT作為語言模型，它繼承了Meta模型卡片中提到的相同風險和侷限性。

與其他因訓練數據多樣性（或缺乏多樣性）對模型質量產生下游影響的大語言模型一樣，OPT-175B在偏差和安全性方面存在侷限性。OPT-175B在生成多樣性和幻覺方面也可能存在質量問題。一般來說，OPT-175B無法避免困擾現代大語言模型的諸多問題。

BLIP2在從互聯網收集的圖像 - 文本數據集（如 LAION ）上進行了微調。因此，該模型本身可能容易生成同樣不適當的內容，或複製底層數據中固有的偏差。

BLIP2尚未在現實世界應用中進行測試，不應直接部署到任何應用程序中。研究人員應首先仔細評估該模型在其部署的特定環境中的安全性和公平性。

倫理考量

此版本僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途而設計或評估。我們強烈建議用戶在部署此模型之前，評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性，遵守適用法律，並在選擇用例時採用最佳實踐，特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導，請參考我們的AUP和AI AUP。