Fuyu-8B开源多模态文本-图像转换器 - 响应快架构简，适用于数字代理

首页

Fuyu 8b

由 adept 开发

Fuyu-8B是Adept AI开发的多模态文本-图像转换器，专为数字代理设计，支持任意图像分辨率，响应迅捷且架构简洁。

图像生成文本

Transformers

#多模态代理 #任意分辨率处理 #图表解析

下载量 14.22k

发布时间 : 10/17/2023

模型简介

Fuyu-8B是一个多模态模型，能够接收图像与文本输入并生成文本输出，特别适合数字代理应用，如解析图表、回答基于用户界面的问题等。

模型特点

简洁架构

采用纯解码器Transformer设计，不含独立图像编码器，图像块通过线性投影直接输入Transformer首层，架构简洁便于理解、扩展和部署。

任意图像分辨率支持

支持任意图像分辨率，图像标记序列视同文本标记序列处理，移除图像专用位置嵌入，按光栅扫描顺序输入所需数量的图像标记。

快速响应

处理大尺寸图像响应时间低于100毫秒，适合实时应用场景。

多场景优化

虽针对数字代理场景优化，在标准图像理解基准测试中仍表现优异，支持少样本学习和多场景微调。

模型能力

图像理解

文本生成

图表解析

用户界面问题回答

屏幕图像细粒度定位

使用案例

数字代理

图表解析

解析图表数据并回答相关问题

在AI2D图表解析测试中得分64.5

用户界面交互

回答基于用户界面的问题

图像理解

视觉问答

回答关于图像内容的自然语言问题

在VQAv2测试中得分74.2

图像描述生成

生成COCO风格的图像描述

在COCO字幕生成测试中得分141

🚀 Fuyu-8B模型卡片

Fuyu-8B是一款多模态模型的轻量版本，为我们的产品提供支持。该模型已在HuggingFace上发布。我们认为Fuyu-8B令人期待，原因如下：

与其他多模态模型相比，其架构和训练过程更为简单，便于理解、扩展和部署。
它专为数字智能体设计，能够支持任意图像分辨率，回答有关图表和示意图的问题、基于用户界面的问题，并在屏幕图像上进行细粒度定位。
响应速度快，处理大尺寸图像的响应时间少于100毫秒。
尽管针对特定用例进行了优化，但在标准图像理解基准测试（如图像问答和自然图像描述）中仍表现出色。

请注意，我们发布的是基础模型。针对特定用例（如详细描述或多模态对话），您可能需要对模型进行微调。根据我们的经验，该模型在少样本学习和针对各种用例的微调方面表现良好。

🚀 快速开始

模型简介

Fuyu-8B 是由 Adept AI 训练的多模态文本和图像Transformer模型。

从架构上看，Fuyu是一个纯粹的仅解码器Transformer模型，没有图像编码器。相反，图像块被线性投影到Transformer的第一层，绕过了嵌入查找。我们简单地将Transformer解码器视为图像Transformer（尽管没有池化和因果注意力）。更多细节请参考下图。

architecture

这种简化使我们能够支持任意图像分辨率。为此，我们将图像令牌序列视为文本令牌序列。我们移除了特定于图像的位置嵌入，并按光栅扫描顺序输入所需数量的图像令牌。为了告知模型一行何时结束，我们使用了一个特殊的图像换行符。模型可以利用现有的位置嵌入来推理不同的图像大小，并且我们可以在训练时使用任意大小的图像，从而无需单独的高分辨率和低分辨率训练阶段。

模型描述

属性	详情
开发方	Adept-AI
模型类型	仅解码器多模态Transformer模型
许可证	CC-BY-NC
模型描述	这是一个多模态模型，可以处理图像和文本并生成文本。
更多信息资源	请查看我们的博客文章。

✨ 主要特性

架构简化

Fuyu-8B采用了简洁的架构，没有图像编码器，图像块直接线性投影到Transformer的第一层，这种设计不仅简化了模型结构，还支持任意图像分辨率。

多模态处理能力

能够处理图像和文本输入，并生成文本输出，可用于图像问答、自然图像描述等多种任务。

快速响应

处理大尺寸图像的响应时间少于100毫秒，适用于对实时性要求较高的场景。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import FuyuProcessor, FuyuForCausalLM
from PIL import Image
import requests

# load model and processor
model_id = "adept/fuyu-8b"
processor = FuyuProcessor.from_pretrained(model_id)
model = FuyuForCausalLM.from_pretrained(model_id, device_map="cuda:0")

# prepare inputs for the model
text_prompt = "Generate a coco-style caption.\n"
url = "https://huggingface.co/adept/fuyu-8b/resolve/main/bus.png"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=text_prompt, images=image, return_tensors="pt").to("cuda:0")

# autoregressively generate text
generation_output = model.generate(**inputs, max_new_tokens=7)
generation_text = processor.batch_decode(generation_output[:, -7:], skip_special_tokens=True)
assert generation_text == ['A blue bus parked on the side of a road.']

高级用法

text_prompt = "What color is the bus?\n"
url = "https://huggingface.co/adept/fuyu-8b/resolve/main/bus.png"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=text_prompt, images=image, return_tensors="pt").to("cuda:0")

generation_output = model.generate(**inputs, max_new_tokens=6)
generation_text = processor.batch_decode(generation_output[:, -6:], skip_special_tokens=True)
assert generation_text == ["The bus is blue.\n"]


text_prompt = "What is the highest life expectancy at birth of male?\n"
url = "https://huggingface.co/adept/fuyu-8b/resolve/main/chart.png"
image = Image.open(requests.get(url, stream=True).raw)

model_inputs = processor(text=text_prompt, images=image, return_tensors="pt").to("cuda:0")

generation_output = model.generate(**model_inputs, max_new_tokens=16)
generation_text = processor.batch_decode(generation_output[:, -16:], skip_special_tokens=True)
assert generation_text == ["The life expectancy at birth of males in 2018 is 80.7.\n"]