B

Blip Image Captioning Large

由Salesforce開發
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
下載量 2.5M
發布時間 : 12/13/2022

模型概述

基於COCO數據集預訓練的圖像描述生成模型,採用ViT大型骨幹網絡,能夠為輸入圖像生成自然語言描述。

模型特點

統一視覺-語言框架
同時支持視覺-語言理解和生成任務,具有靈活的遷移能力
引導式標註技術
通過captioner生成合成描述和filter過濾噪聲,有效利用網絡數據
多任務適配
可應用於圖像文本檢索、圖像描述生成和視覺問答等多種任務

模型能力

圖像描述生成
條件式圖像描述
無條件式圖像描述
視覺-語言理解

使用案例

內容生成
自動圖像標註
為圖片庫中的圖像自動生成描述性文字
提升圖片檢索效率和可訪問性
輔助技術
視障輔助
為視障用戶描述圖像內容
增強數字內容的可訪問性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase