B

Blip Image Captioning Large

由movementso開發
BLIP是一個統一的視覺語言預訓練框架,擅長圖像描述生成和理解任務,通過引導式標註策略高效利用網絡數據
下載量 18
發布時間 : 6/25/2023

模型概述

基於COCO數據集預訓練的視覺語言模型,能夠生成圖像的自然語言描述,支持條件式和非條件式圖像描述生成

模型特點

統一視覺語言框架
同時支持視覺語言理解和生成任務,具有靈活的遷移能力
引導式標註策略
通過標註器生成合成描述,過濾器剔除低質量樣本,有效利用噪聲網絡數據
多任務適應性
可應用於圖像-文本檢索、圖像描述生成和視覺問答等多種任務

模型能力

圖像描述生成
視覺語言理解
條件式圖像描述
非條件式圖像描述

使用案例

內容生成
自動圖像標註
為圖像自動生成描述性文字
在COCO數據集上CIDEr指標提升2.8%
輔助技術
視障輔助
為視障用戶描述圖像內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase