M

Mblip Mt0 Xl

由Gregor開發
mBLIP是一個多語言視覺-語言模型,基於BLIP-2架構,支持96種語言的圖像描述生成和視覺問答任務。
下載量 374
發布時間 : 7/10/2023

模型概述

mBLIP是一個BLIP-2模型,由視覺變換器(ViT)、查詢變換器(Q-Former)和大型語言模型(LLM)組成,通過多語言任務混合重新對齊到多語言LLM(mt0-xl),支持圖像描述生成和視覺問答任務。

模型特點

多語言支持
支持96種語言的圖像理解和生成任務
高效對齊
通過多語言任務混合重新對齊視覺和語言組件
零樣本能力
可在零樣本設置下進行條件文本生成

模型能力

圖像轉文本
多語言圖像描述生成
視覺問答
多語言理解

使用案例

內容生成
多語言圖像描述
為圖像生成不同語言的描述
可生成96種語言的圖像描述
問答系統
多語言視覺問答
回答關於圖像內容的問題
支持96種語言的問答
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase