B

Blip Image Captioning Large

由drgary開發
基於COCO數據集預訓練的視覺語言模型,擅長生成精準的圖像描述
下載量 23
發布時間 : 2/7/2025

模型概述

BLIP是一個統一的視覺語言預訓練框架,能夠同時處理視覺語言理解和生成任務。該模型採用ViT大型骨幹網絡,在圖像描述生成任務上表現優異。

模型特點

統一視覺語言框架
同時支持視覺語言理解和生成任務,實現多任務統一處理
高質量數據生成
通過'描述生成-去噪過濾'機制有效利用網絡數據,提升訓練質量
零樣本遷移能力
在視頻語言任務上展現出強大的零樣本遷移能力

模型能力

圖像描述生成
條件式文本生成
視覺語言理解

使用案例

內容生成
自動圖像標註
為圖片自動生成描述性文字
在COCO數據集上CIDEr指標提升2.8%
輔助技術
視障輔助
為視障用戶生成圖像的文字描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase