B

Blip Image Captioning Base

由Salesforce開發
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
下載量 2.8M
發布時間 : 12/12/2022

模型概述

基於ViT基礎架構的視覺-語言模型,專門用於從圖像生成自然語言描述,支持引導式標註和噪聲過濾技術。

模型特點

雙模式生成
同時支持條件式(帶提示詞)和非條件式(自由生成)圖像描述
噪聲過濾技術
採用引導式標註器生成合成描述並過濾低質量數據,提升訓練數據質量
多任務適配
預訓練架構可靈活遷移至理解型和生成型視覺-語言任務

模型能力

圖像理解
自然語言生成
多模態推理
零樣本遷移

使用案例

內容創作
自動圖片標註
為社交媒體圖片自動生成描述性文字
提升內容可訪問性和搜索友好度
輔助技術
視障輔助
將視覺信息轉換為語音描述
幫助視障人士理解圖像內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase