P

Promptcap Coco Vqa

由tifa-benchmark開發
PromptCap是一個可通過自然語言指令控制的圖像描述生成模型,支持視覺問答和通用描述生成任務。
下載量 121
發布時間 : 1/23/2023

模型概述

PromptCap是一個基於提示引導的任務感知圖像描述生成模型,能夠根據用戶提供的自然語言指令生成圖像描述,支持與GPT-3等大語言模型配合使用。

模型特點

提示引導控制
可通過自然語言指令控制描述生成,支持特定問題引導和通用描述生成
輕量級視覺插件
比BLIP-2更快,適合與GPT-3、ChatGPT等大語言模型配合使用
OCR支持
能夠處理包含OCR文本輸入的圖像描述生成任務
開放域問答
與傳統VQA模型不同,支持與任意文本QA模型結合進行開放域問答

模型能力

圖像描述生成
視覺問答
多模態理解
OCR文本處理
開放域問答

使用案例

視覺問答
知識型視覺問答
與GPT-3結合回答需要外部知識的視覺問題
在OK-VQA上達到60.4%,A-OKVQA上達到59.6%的SOTA表現
多選題問答
支持基於給定選項的多選題視覺問答
圖像描述生成
通用圖像描述
生成圖像的通用描述
在COCO描述生成任務上達到150 CIDEr的SOTA性能
任務感知描述
根據特定問題生成聚焦的圖像描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase