DePlot开源视觉语言推理模型 - 免费将图表转表格并实现少样本推理

首页

Deplot

由 google 开发

DePlot是一个视觉语言推理模型，能够将图表图像转换为线性化表格，结合大语言模型实现少样本推理

图像生成文本

Transformers

支持多种语言开源协议:Apache-2.0 #图表转表格 #视觉语言推理 #单样本学习

下载量 13.72k

发布时间 : 4/3/2023

模型简介

DePlot通过将图表转换为表格格式，使大语言模型能够理解和推理图表内容，显著提升了复杂查询的处理能力

模型特点

单样本推理能力

仅需单样本提示即可完成复杂图表推理任务

模态转换

将视觉图表转换为线性化表格表示

即插即用

可与各种预训练大语言模型无缝集成

模型能力

图表理解

表格生成

视觉问答

多语言处理

使用案例

数据分析

商业图表解析

从商业报告图表中提取结构化数据

相比传统方法提升24%准确率

学术研究

科研论文图表分析

自动提取科研论文中的实验数据图表

🚀 DePlot模型卡

DePlot是一种用于视觉语言推理的模型，它将视觉语言推理挑战分解为绘图到文本翻译和对翻译文本进行推理两个步骤，能够有效提升在复杂人类编写查询上的推理能力。

🚀 快速开始

使用模型

你可以通过以下方式，将输入图像与问题结合起来进行预测：

from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
import requests
from PIL import Image

processor = Pix2StructProcessor.from_pretrained('google/deplot')
model = Pix2StructForConditionalGeneration.from_pretrained('google/deplot')

url = "https://raw.githubusercontent.com/vis-nlp/ChartQA/main/ChartQA%20Dataset/val/png/5090.png"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(images=image, text="Generate underlying data table of the figure below:", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))

从T5x转换到Hugging Face

你可以使用convert_pix2struct_checkpoint_to_pytorch.py脚本进行转换，如下所示：

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --is_vqa

如果你要转换大型模型，请运行：

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --use-large --is_vqa

保存后，你可以使用以下代码片段将转换后的模型推送到Hugging Face Hub：

from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor

model = Pix2StructForConditionalGeneration.from_pretrained(PATH_TO_SAVE)
processor = Pix2StructProcessor.from_pretrained(PATH_TO_SAVE)

model.push_to_hub("USERNAME/MODEL_NAME")
processor.push_to_hub("USERNAME/MODEL_NAME")

✨ 主要特性

论文摘要指出：

图表等视觉语言在人类世界中无处不在。理解图表需要强大的推理能力。先前的最先进（SOTA）模型至少需要数万条训练示例，并且它们的推理能力仍然非常有限，尤其是在处理复杂的人类编写查询时。本文提出了第一个用于视觉语言推理的一次性解决方案。我们将视觉语言推理的挑战分解为两个步骤：（1）绘图到文本的翻译，以及（2）对翻译后的文本进行推理。该方法的关键是一个名为DePlot的模态转换模块，它将绘图或图表的图像转换为线性化表格。然后，DePlot的输出可以直接用于提示预训练的大语言模型（LLM），利用LLM的少样本推理能力。为了得到DePlot，我们通过建立统一的任务格式和指标来规范绘图到表格的任务，并在该任务上对DePlot进行端到端训练。然后，DePlot可以与LLM以即插即用的方式现成使用。与在超过28k个数据点上微调的SOTA模型相比，仅使用一次性提示的DePlot + LLM在图表问答任务的人类编写查询上比微调后的SOTA模型提高了24.0%。

📄 许可证

本模型采用Apache 2.0许可证。

🔗 贡献者

此模型最初由Fangyu Liu、Julian Martin Eisenschlos等人贡献，并由Younes Belkada添加到Hugging Face生态系统中。

📚 引用

如果你想引用这项工作，请考虑引用原始论文：

@misc{liu2022deplot,
      title={DePlot: One-shot visual language reasoning by plot-to-table translation},
      author={Liu, Fangyu and Eisenschlos, Julian Martin and Piccinno, Francesco and Krichene, Syrine and Pang, Chenxi and Lee, Kenton and Joshi, Mandar and Chen, Wenhu and Collier, Nigel and Altun, Yasemin},
      year={2022},
      eprint={2212.10505},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

模型架构