P

Pic2story

由abhijit2111開發
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成和理解任務,通過引導描述生成有效利用噪聲網絡數據
下載量 140
發布時間 : 4/9/2024

模型概述

該模型是基於COCO數據集預訓練的圖像描述生成模型,採用ViT大型骨幹網絡架構,支持條件式和非條件式圖像描述生成

模型特點

統一視覺-語言框架
可靈活遷移至視覺-語言理解與生成任務
引導描述生成
通過描述生成器和過濾器有效利用噪聲網絡數據
多任務適配
支持圖像描述生成、圖文檢索和視覺問答等多種任務

模型能力

圖像描述生成
視覺-語言理解
條件式文本生成
非條件式文本生成

使用案例

內容生成
自動圖像標註
為圖片生成描述性文字
在COCO數據集上CIDEr指標提升2.8%
信息檢索
圖文檢索
根據文本查詢匹配相關圖像
平均召回率@1提升2.7%
智能問答
視覺問答
回答關於圖像內容的問題
VQA得分提升1.6%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase