I

Instructblip Flan T5 Xxl 8bit

由Mediocreatmybest開發
BLIP-2是基於Flan T5-xxl的視覺-語言模型,通過凍結圖像編碼器與大型語言模型進行預訓練,支持圖像描述生成、視覺問答等任務。
下載量 18
發布時間 : 8/8/2023

模型概述

BLIP-2模型包含CLIP圖像編碼器、查詢轉換器和大型語言模型(Flan T5-xxl),通過訓練查詢轉換器來彌合視覺與語言模態的差異,實現圖像到文本的生成任務。

模型特點

多模態預訓練
結合視覺編碼器與大型語言模型,實現跨模態理解與生成
參數高效
僅訓練查詢轉換器(Q-Former),凍結圖像編碼器和語言模型參數
零樣本能力
預訓練模型可直接用於下游任務(如VQA),無需微調

模型能力

圖像描述生成
視覺問答(VQA)
基於圖像的對話生成

使用案例

內容生成
自動圖像標註
為圖片生成自然語言描述
可生成符合圖像內容的文本描述
智能交互
視覺問答系統
回答關於圖像內容的自然語言問題
能正確回答如'圖片中有多少隻狗?'等問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase