udop-large-512开源文档处理模型 - 免费部署实现分类、解析、问答等任务

首页

Udop Large 512

由 microsoft 开发

UDOP是一个统一视觉、文本与布局的通用文档处理模型，基于T5架构，适用于文档图像分类、解析和视觉问答等任务。

图像生成文本

Transformers

开源协议:MIT #文档视觉问答 #多模态文档处理 #布局感知解析

下载量 193

发布时间 : 2/26/2024

模型简介

UDOP采用基于T5的编码器-解码器Transformer架构，整合视觉、文本和布局信息，用于处理文档AI任务。

模型特点

多模态统一处理

整合视觉、文本和布局信息进行联合处理

通用文档处理

支持多种文档AI任务，包括分类、解析和问答

基于T5架构

采用成熟的T5编码器-解码器Transformer架构

模型能力

文档图像分类

文档结构解析

文档视觉问答

文档语义理解

使用案例

文档处理

表格信息提取

从文档图像中提取表格数据

示例输出：9/30/92

文档分类

对文档图像进行分类

🚀 UDOP模型

UDOP模型是一个用于通用文档处理的模型，它统一了视觉、文本和布局信息，可应用于文档图像分类、解析和视觉问答等任务。

🚀 快速开始

UDOP模型由Zineng Tang、Ziyi Yang、Guoxin Wang、Yuwei Fang、Yang Liu、Chenguang Zhu、Michael Zeng、Cha Zhang和Mohit Bansal等人在论文Unifying Vision, Text, and Layout for Universal Document Processing中提出。

✨ 主要特性

UDOP采用基于T5的编码器 - 解码器Transformer架构，可用于文档AI任务，如文档图像分类、文档解析和文档视觉问答。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoProcessor, UdopForConditionalGeneration
from datasets import load_dataset

# load model and processor
# in this case, we already have performed OCR ourselves
# so we initialize the processor with `apply_ocr=False`
processor = AutoProcessor.from_pretrained("microsoft/udop-large", apply_ocr=False)
model = UdopForConditionalGeneration.from_pretrained("microsoft/udop-large")

# load an example image, along with the words and coordinates
# which were extracted using an OCR engine
dataset = load_dataset("nielsr/funsd-layoutlmv3", split="train")
example = dataset[0]
image = example["image"]
words = example["tokens"]
boxes = example["bboxes"]
question = "Question answering. What is the date on the form?"

# prepare everything for the model
encoding = processor(image, question, words, boxes=boxes, return_tensors="pt")

# autoregressive generation
predicted_ids = model.generate(**encoding)
print(processor.batch_decode(predicted_ids, skip_special_tokens=True)[0])
9/30/92

参考演示笔记本进行微调/推理。

📚 详细文档

预期用途和限制

你可以使用该模型进行文档图像分类、文档解析和文档视觉问答（DocVQA）。

BibTeX引用和引用信息

@misc{tang2023unifying,
      title={Unifying Vision, Text, and Layout for Universal Document Processing}, 
      author={Zineng Tang and Ziyi Yang and Guoxin Wang and Yuwei Fang and Yang Liu and Chenguang Zhu and Michael Zeng and Cha Zhang and Mohit Bansal},
      year={2023},
      eprint={2212.02623},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}