PromptCap开源图像描述模型 - 免费实现视觉问答与通用描述生成

首页

Promptcap Coco Vqa

由 tifa-benchmark 开发

PromptCap是一个可通过自然语言指令控制的图像描述生成模型，支持视觉问答和通用描述生成任务。

图像生成文本

Transformers

英语开源协议:Openrail #提示引导图像描述 #多任务视觉问答 #OCR融合理解

下载量 121

发布时间 : 1/23/2023

模型简介

PromptCap是一个基于提示引导的任务感知图像描述生成模型，能够根据用户提供的自然语言指令生成图像描述，支持与GPT-3等大语言模型配合使用。

模型特点

提示引导控制

可通过自然语言指令控制描述生成，支持特定问题引导和通用描述生成

轻量级视觉插件

比BLIP-2更快，适合与GPT-3、ChatGPT等大语言模型配合使用

OCR支持

能够处理包含OCR文本输入的图像描述生成任务

开放域问答

与传统VQA模型不同，支持与任意文本QA模型结合进行开放域问答

模型能力

图像描述生成

视觉问答

多模态理解

OCR文本处理

开放域问答

使用案例

视觉问答

知识型视觉问答

与GPT-3结合回答需要外部知识的视觉问题

在OK-VQA上达到60.4%，A-OKVQA上达到59.6%的SOTA表现

多选题问答

支持基于给定选项的多选题视觉问答

图像描述生成

通用图像描述

生成图像的通用描述

在COCO描述生成任务上达到150 CIDEr的SOTA性能

任务感知描述

根据特定问题生成聚焦的图像描述

🚀 PromptCap：基于提示引导的图像描述模型

PromptCap是一个可由自然语言指令控制的图像描述模型，能够处理图像描述、视觉问答等任务。它可以作为轻量级视觉插件与大语言模型结合使用，在COCO图像描述和基于知识的视觉问答任务中取得了优异的成绩。

🚀 快速开始

✨ 主要特性

自然语言指令控制：支持通过自然语言指令控制模型，指令中可包含用户感兴趣的问题，例如“这个男孩正在穿什么衣服？”。
通用描述支持：支持通用的图像描述，使用问题“图像描述了什么？”即可。
轻量级视觉插件：可作为轻量级视觉插件与GPT - 3、ChatGPT等大语言模型以及Segment Anything、DINO等基础模型配合使用，速度比BLIP - 2快很多。
优异性能：在COCO图像描述任务中达到了SOTA性能（150 CIDEr），与GPT - 3结合并基于用户问题时，在基于知识的视觉问答任务中取得了SOTA性能（OK - VQA上60.4%，A - OKVQA上59.6%）。

📦 安装指南

pip install promptcap

💻 使用示例

基础用法

本项目包含两个管道，一个用于图像描述，另一个用于视觉问答。

图像描述管道

请遵循提示格式，以获得最佳性能。按照以下步骤生成提示引导的图像描述：

import torch
from promptcap import PromptCap

model = PromptCap("tifa-benchmark/promptcap-coco-vqa")  # 也支持OFA检查点。例如 "OFA-Sys/ofa-large"

if torch.cuda.is_available():
  model.cuda()

prompt = "please describe this image according to the given question: what piece of clothing is this boy putting on?"
image = "glove_boy.jpeg"

print(model.caption(prompt, image))

若要进行通用描述，可使用问题“what does the image describe?”：

prompt = "what does the image describe?"
image = "glove_boy.jpeg"

print(model.caption(prompt, image))

PromptCap还支持接受OCR输入：

prompt = "please describe this image according to the given question: what year was this taken?"
image = "dvds.jpg"
ocr = "yip AE Mht juor 02/14/2012"

print(model.caption(prompt, image, ocr))

视觉问答管道

与典型的在VQAv2上进行分类的视觉问答模型不同，PromptCap是开放域的，可以与任意文本问答模型配合使用。这里提供了一个将PromptCap与UnifiedQA结合的管道。

import torch
from promptcap import PromptCap_VQA

# QA模型支持所有UnifiedQA变体。例如 "allenai/unifiedqa-v2-t5-large-1251000"
vqa_model = PromptCap_VQA(promptcap_model="tifa-benchmark/promptcap-coco-vqa", qa_model="allenai/unifiedqa-t5-base")

if torch.cuda.is_available():
  vqa_model.cuda()

question = "what piece of clothing is this boy putting on?"
image = "glove_boy.jpeg"

print(vqa_model.vqa(question, image))

同样，PromptCap支持OCR输入：

question = "what year was this taken?"
image = "dvds.jpg"
ocr = "yip AE Mht juor 02/14/2012"

print(vqa_model.vqa(question, image, ocr=ocr))

由于Unifiedqa的灵活性，PromptCap还支持多项选择视觉问答：

question = "what piece of clothing is this boy putting on?"
image = "glove_boy.jpeg"
choices = ["gloves", "socks", "shoes", "coats"]
print(vqa_model.vqa_multiple_choice(question, image, choices))

📚 详细文档

这是论文 PromptCap: Prompt-Guided Task-Aware Image Captioning 的代码仓库。该论文以 PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3 为题被ICCV 2023收录。

📄 许可证

本项目采用OpenRail许可证。

🔍 信息表格

属性	详情
模型类型	图像到文本
训练数据	COCO、TextVQA、VQAv2、OK - VQA、A - OKVQA

📖 BibTeX引用

@article{hu2022promptcap,
  title={PromptCap: Prompt-Guided Task-Aware Image Captioning},
  author={Hu, Yushi and Hua, Hang and Yang, Zhengyuan and Shi, Weijia and Smith, Noah A and Luo, Jiebo},
  journal={arXiv preprint arXiv:2211.09699},
  year={2022}
}