blip2-flan-t5-xl-sharded开源模型 - 低内存加载实现图像描述与视觉问答

首页

Blip2 Flan T5 Xl Sharded

由 ethzanalytics 开发

这是BLIP-2模型的分片版本，采用Flan T5-xl实现图像到文本任务，如图像描述和视觉问答。分片处理使其能在低内存环境中加载。

图像生成文本

Transformers

英语开源协议:MIT #图像描述生成 #视觉问答 #低内存优化

下载量 71

发布时间 : 2/28/2023

模型简介

基于Flan T5-xl的BLIP-2模型分片版本，专为图像到文本任务设计，支持图像描述生成和视觉问答等功能。

模型特点

分片处理

模型经过分片处理，可在低内存环境中（如Colab）轻松加载。

多任务支持

支持图像描述生成和视觉问答等多种图像到文本任务。

基于Flan T5-xl

采用Flan T5-xl语言模型，具备强大的文本生成能力。

模型能力

图像描述生成

视觉问答

图像到文本转换

使用案例

图像理解

图像描述生成

为输入图像生成自然语言描述。

生成准确描述图像内容的文本。

视觉问答

回答关于图像内容的自然语言问题。

根据图像内容提供准确答案。

🚀 分片式BLIP - 2模型卡片 - flan - t5 - xl

这是一个基于图像文本到文本处理的模型，借助 [Flan T5 - xl](https://huggingface.co/google/flan - t5 - xl) 来完成图像到文本的任务，例如图像描述和视觉问答。它是 [blip2 - flan - t5 - xl](https://huggingface.co/Salesforce/blip2 - flan - t5 - xl) 的分片版本，能在低内存的Colab运行时轻松加载。

🚀 快速开始

本模型借助 [Flan T5 - xl](https://huggingface.co/google/flan - t5 - xl) 来完成图像到文本的任务，如图像描述和视觉问答。该模型仓库采用了分片技术，可在低内存的Colab运行时轻松加载。更多关于模型描述、预期用途、限制以及如何在CPU和GPU上以不同精度使用模型的说明，请参考 [原始模型卡片](https://huggingface.co/Salesforce/blip2 - flan - t5 - xl)。

📦 安装指南

需要安装当前 transformers 的 main 版本（在编写本文时）：

pip install accelerate git+https://github.com/huggingface/transformers.git -U -q

💻 使用示例

基础用法

以下是在CPU上使用该模型的示例代码：

import requests
from PIL import Image
from transformers import BlipProcessor, Blip2ForConditionalGeneration

model_name = "ethzanalytics/blip2-flan-t5-xl-sharded"
processor = BlipProcessor.from_pretrained(model_name)
model = Blip2ForConditionalGeneration.from_pretrained(model_name)

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

question = "how many dogs are in the picture?"
inputs = processor(raw_image, question, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

此示例代码是在CPU上运行的，关于 fp16 和 int8 的使用，请参考原始模型卡片或 [这篇博客文章](https://huggingface.co/blog/blip - 2#using - blip - 2 - with - hugging - face - transformers)。