detr-layout-detection开源文档布局检测模型 - 精准识别文档多种布局元素

首页

Detr Layout Detection

由 cmarkea 开发

基于DETR架构的文档布局检测模型，能够识别文档中的多种布局元素。

目标检测

Transformers

开源协议:Apache-2.0 #文档布局分析 #多模态检测 #PDF元素识别

下载量 13.21k

发布时间 : 7/29/2024

模型简介

该模型基于detr-resnet-50模型在DocLayNet数据集上进行微调，可同时预测文档对象的掩码和边界框，是处理待导入开放域问答系统(ODQA)文档语料的理想选择。

模型特点

多类别检测

可识别11类文档实体，包括标题、脚注、公式、列表项等

双任务输出

同时预测文档对象的掩码和边界框

高性能

在DocLayNet评估数据集上表现出色，F1分数达91.27

模型能力

文档布局分析

目标检测

语义分割

使用案例

文档处理

开放域问答系统预处理

为ODQA系统准备文档语料，识别不同布局元素

有效分离文档中的文本、图片、表格等元素

文档数字化

将扫描文档转换为结构化数字格式

准确识别各类文档元素及其位置关系

🚀 DETR-layout-detection

我们推出了模型 cmarkea/detr-layout-detection，该模型可从文档图像中提取不同的布局元素（如文本、图片、标题、脚注等）。此模型是在 DocLayNet 数据集上对 detr-resnet-50 模型进行微调得到的。它能够同时预测文档对象的掩码和边界框，非常适合处理要导入开放域问答（ODQA）系统的文档语料库。

该模型可以提取 11 种实体，分别为：标题、脚注、公式、列表项、页面页脚、页面页眉、图片、章节标题、表格、文本和标题。

✨ 主要特性

可从文档图像中提取多种布局元素。
基于 detr-resnet-50 模型在 DocLayNet 数据集上微调。
能同时预测文档对象的掩码和边界框。
适用于处理要导入 ODQA 系统的文档语料库。

📚 详细文档

性能评估

在本节中，我们将分别从语义分割和目标检测两个方面评估模型的性能。在这两种情况下，估计后均未进行后处理。

对于语义分割，我们将使用 F1 分数来评估每个像素的分类情况。对于目标检测，我们将基于广义交并比（GIoU）和预测边界框类别的准确率来评估性能。评估是在 DocLayNet 的 PDF 评估数据集的 500 页上进行的。

类别	F1 分数（x100）	GIoU（x100）	准确率（x100）
背景	95.82	NA	NA
标题	82.68	74.71	69.05
脚注	78.19	74.71	74.19
公式	87.25	76.31	97.79
列表项	81.43	77.0	90.62
页面页脚	82.01	69.86	96.64
页面页眉	68.32	77.68	88.3
图片	81.04	81.84	90.88
章节标题	73.52	73.46	85.96
表格	78.59	85.45	90.58
文本	91.93	83.16	91.8
标题	70.38	74.13	63.33

基准测试

现在，让我们将该模型的性能与其他模型进行比较。

模型	F1 分数（x100）	GIoU（x100）	准确率（x100）
`cmarkea/detr-layout-detection`	91.27	80.66	90.46
cmarkea/dit-base-layout-detection	90.77	56.29	85.26

💻 使用示例

基础用法

from transformers import AutoImageProcessor
from transformers.models.detr import DetrForSegmentation

img_proc = AutoImageProcessor.from_pretrained(
    "cmarkea/detr-layout-detection"
)
model = DetrForSegmentation.from_pretrained(
    "cmarkea/detr-layout-detection"
)

img: PIL.Image

with torch.inference_mode():
    input_ids = img_proc(img, return_tensors='pt')
    output = model(**input_ids)

threshold=0.4

segmentation_mask = img_proc.post_process_segmentation(
    output,
    threshold=threshold,
    target_sizes=[img.size[::-1]]
)

bbox_pred = img_proc.post_process_object_detection(
    output,
    threshold=threshold,
    target_sizes=[img.size[::-1]]
)

示例展示

📄 许可证

本项目采用 apache-2.0 许可证。

📚 引用信息

@online{DeDetrLay,
  AUTHOR = {Cyrile Delestre},
  URL = {https://huggingface.co/cmarkea/detr-layout-detection},
  YEAR = {2024},
  KEYWORDS = {Image Processing ; Transformers ; Layout},
}