udop-large-512-300k开源文档处理模型 - 统一处理视文布局应对文档AI任务

首页

Udop Large 512 300k

由 microsoft 开发

UDOP是一个统一处理视觉、文本和布局的通用文档处理模型，基于T5架构，适用于文档AI任务。

图像生成文本

Transformers

开源协议:MIT #文档视觉问答 #多模态文档处理 #布局感知解析

下载量 264

发布时间 : 2/26/2024

模型简介

UDOP采用基于T5的编码器-解码器Transformer架构，适用于文档图像分类、文档解析和文档视觉问答等文档AI任务。

模型特点

统一多模态处理

能够同时处理视觉、文本和布局信息，实现全面的文档理解

通用文档AI能力

支持多种文档AI任务，包括分类、解析和问答

基于T5架构

采用成熟的T5架构，具有良好的扩展性和适应性

模型能力

文档图像分类

文档解析

文档视觉问答

文本布局理解

多模态文档处理

使用案例

文档处理

文档图像分类

自动识别和分类不同类型的文档图像

文档解析

提取文档中的结构化信息，如表格、字段等

文档视觉问答

回答基于文档内容的自然语言问题

示例中正确回答了表格上的日期问题

🚀 UDOP模型

UDOP模型是一个用于通用文档处理的模型，它统一了视觉、文本和布局信息，可应用于文档图像分类、解析和视觉问答等任务。

🚀 快速开始

UDOP模型由Zineng Tang、Ziyi Yang、Guoxin Wang、Yuwei Fang、Yang Liu、Chenguang Zhu、Michael Zeng、Cha Zhang、Mohit Bansal等人在论文 Unifying Vision, Text, and Layout for Universal Document Processing 中提出。

✨ 主要特性

UDOP采用基于T5的编码器 - 解码器Transformer架构，用于处理文档AI任务，如文档图像分类、文档解析和文档视觉问答。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoProcessor, UdopForConditionalGeneration
from datasets import load_dataset

# load model and processor
# in this case, we already have performed OCR ourselves
# so we initialize the processor with `apply_ocr=False`
processor = AutoProcessor.from_pretrained("microsoft/udop-large", apply_ocr=False)
model = UdopForConditionalGeneration.from_pretrained("microsoft/udop-large")

# load an example image, along with the words and coordinates
# which were extracted using an OCR engine
dataset = load_dataset("nielsr/funsd-layoutlmv3", split="train")
example = dataset[0]
image = example["image"]
words = example["tokens"]
boxes = example["bboxes"]
question = "Question answering. What is the date on the form?"

# prepare everything for the model
encoding = processor(image, question, words, boxes=boxes, return_tensors="pt")

# autoregressive generation
predicted_ids = model.generate(**encoding)
print(processor.batch_decode(predicted_ids, skip_special_tokens=True)[0])
9/30/92

高级用法

文档中未提及高级用法相关代码，故跳过此部分。

📚 详细文档

你可以使用该模型进行文档图像分类、文档解析和文档视觉问答（DocVQA）。关于微调/推理的详细内容，请参考演示笔记本。

🔧 技术细节

文档中未提及详细技术实现细节，故跳过此章节。

📄 许可证

该模型使用MIT许可证。

BibTeX引用

@misc{tang2023unifying,
      title={Unifying Vision, Text, and Layout for Universal Document Processing}, 
      author={Zineng Tang and Ziyi Yang and Guoxin Wang and Yuwei Fang and Yang Liu and Chenguang Zhu and Michael Zeng and Cha Zhang and Mohit Bansal},
      year={2023},
      eprint={2212.02623},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}