lilt-xlm-roberta-base开源文档理解模型 - 免费部署实现段落级文档布局分析

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Paragraphlevel Ml512

由 pierreguillou 开发

这是一个文档理解模型，专门用于分析文档布局和内容，在段落级别进行标记分类任务。

文字识别

Transformers

支持多种语言开源协议:MIT #多语言文档理解 #段落级布局分析 #金融文档处理

下载量 126

发布时间 : 2/15/2023

模型简介

该模型基于LiLT架构，使用DocLayNet基础数据集在段落级别进行微调，能够识别文档中的不同段落类型（如标题、文本、表格等）。

模型特点

多语言支持

模型支持多种语言文档的理解和分析

段落级别分析

能够识别文档中不同段落的功能类型

高精度分类

在测试集上达到86.34%的F1值

模型能力

文档布局分析

段落类型识别

多语言文档处理

标记分类

使用案例

文档处理

财务报告分析

自动识别财务报告中的不同部分（标题、正文、表格等）

准确率86.34%

科学论文处理

分类科学论文中的公式、图表和正文内容

公式识别准确率97.33%

法律文档处理

法律条文解析

识别法律文档中的章节标题和正文内容

🚀 文档理解模型（在DocLayNet基础数据集上按段落级别微调LiLT基础模型）

本模型是基于 nielsr/lilt-xlm-roberta-base 模型，使用 DocLayNet基础数据集进行微调得到的。该模型在评估集上取得了以下成果：

损失值：0.4104
精确率：0.8634
召回率：0.8634
F1值：0.8634
标记准确率：0.8634
段落准确率：0.6815

✨ 主要特性

多语言支持：支持多种语言，包括英语、德语、法语和日语等。
多任务能力：可用于目标检测、图像分割和标记分类等任务。
基于大规模数据集训练：使用DocLayNet基础数据集进行训练，该数据集包含来自多种文档类别的大量页面。
高精度表现：在评估集上取得了较高的F1值和准确率。

📚 详细文档

段落级准确率

段落准确率：68.15%
按标签划分的准确率
- 标题说明：22.82%
- 脚注：0.0%
- 公式：97.33%
- 列表项：8.42%
- 页面页脚：98.77%
- 页面页眉：77.81%
- 图片：39.16%
- 章节标题：76.17%
- 表格：37.7%
- 文本：86.78%
- 标题：0.0%

DocLayNet基础测试数据集的段落标签与准确率（%）（模型：在DocLayNet基础数据集上按段落级别微调的LiLT基础模型）

DocLayNet基础测试数据集标记块的混淆矩阵（模型：在DocLayNet基础数据集上按段落级别微调的LiLT基础模型）

参考文献

博客文章

Layout XLM基础模型
- (2023年5月3日) Document AI | 使用LayoutXLM基础模型按行级别进行文档理解的推理应用程序和微调笔记本
LiLT基础模型
- (2023年2月16日) Document AI | 按段落级别进行文档理解的推理应用程序和微调笔记本
- (2023年2月14日) Document AI | 按行级别进行文档理解的推理应用程序
- (2023年2月10日) Document AI | 使用LiLT、Tesseract和DocLayNet数据集按行级别进行文档理解的模型
- (2023年1月31日) Document AI | DocLayNet图像查看器应用程序
- (2023年1月27日) Document AI | 处理DocLayNet数据集以供Hugging Face中心的布局模型使用（微调、推理）

笔记本（段落级别）

LiLT基础模型

笔记本（行级别）

Layout XLM基础模型
LiLT基础模型

应用程序

您可以使用Hugging Face Spaces中的此应用程序测试该模型：按段落级别进行文档理解的推理应用程序（v1）。

按段落级别进行文档理解的推理应用程序（v1）

您也可以运行相应的笔记本：Document AI | 使用按段落级别微调的文档理解模型（在DocLayNet数据集上微调的LiLT模型）进行推理的应用程序

DocLayNet数据集

DocLayNet数据集（IBM）为来自6个文档类别的80863个唯一页面，使用边界框按页面提供了11个不同类别标签的布局分割真实标注。

截至目前，该数据集可以通过直接链接或作为Hugging Face数据集进行下载：

直接链接：doclaynet_core.zip（28 GiB），doclaynet_extra.zip（7.5 GiB）
Hugging Face数据集库：DocLayNet数据集

论文：DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis（2022年6月2日）

模型描述

该模型是在 512个标记块（重叠128个标记）的段落级别上进行微调的。因此，该模型使用了数据集中所有页面的所有布局和文本数据进行训练。

在推理时，通过计算最佳概率为每个段落边界框分配标签。

推理

请参阅笔记本：Document AI | 使用按段落级别微调的文档理解模型（在DocLayNet数据集上微调的LiLT模型）进行推理

训练和评估数据

请参阅笔记本：Document AI | 在任何语言下按段落级别（512个标记块，有重叠）在DocLayNet基础数据集上微调LiLT

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：2e-05
训练批次大小：8
评估批次大小：16
随机种子：42
优化器：Adam，β=(0.9, 0.999)，ε=1e-08
学习率调度器类型：线性
训练轮数：1
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	精确率	召回率	F1值	准确率
无记录	0.05	100	0.9875	0.6585	0.6585	0.6585	0.6585
无记录	0.11	200	0.7886	0.7551	0.7551	0.7551	0.7551
无记录	0.16	300	0.5894	0.8248	0.8248	0.8248	0.8248
无记录	0.21	400	0.4794	0.8396	0.8396	0.8396	0.8396
0.7446	0.27	500	0.3993	0.8703	0.8703	0.8703	0.8703
0.7446	0.32	600	0.3631	0.8857	0.8857	0.8857	0.8857
0.7446	0.37	700	0.4096	0.8630	0.8630	0.8630	0.8630
0.7446	0.43	800	0.4492	0.8528	0.8528	0.8528	0.8528
0.7446	0.48	900	0.3839	0.8834	0.8834	0.8834	0.8834
0.4464	0.53	1000	0.4365	0.8498	0.8498	0.8498	0.8498
0.4464	0.59	1100	0.3616	0.8812	0.8812	0.8812	0.8812
0.4464	0.64	1200	0.3949	0.8796	0.8796	0.8796	0.8796
0.4464	0.69	1300	0.4184	0.8613	0.8613	0.8613	0.8613
0.4464	0.75	1400	0.4130	0.8743	0.8743	0.8743	0.8743
0.3672	0.8	1500	0.4535	0.8289	0.8289	0.8289	0.8289
0.3672	0.85	1600	0.3681	0.8713	0.8713	0.8713	0.8713
0.3672	0.91	1700	0.3446	0.8857	0.8857	0.8857	0.8857
0.3672	0.96	1800	0.4104	0.8634	0.8634	0.8634	0.8634

框架版本

Transformers 4.26.1
Pytorch 1.13.1+cu116
Datasets 2.9.0
Tokenizers 0.13.2

其他模型

行级别
- 文档理解模型（在DocLayNet基础数据集上按行级别微调LiLT基础模型）（准确率 | 标记：85.84% - 行：91.97%）
- 文档理解模型（在DocLayNet基础数据集上按行级别微调LayoutXLM基础模型）（准确率 | 标记：93.73% - 行：...）
段落级别
- 文档理解模型（在DocLayNet基础数据集上按段落级别微调LiLT基础模型）（准确率 | 标记：86.34% - 段落：68.15%）
- 文档理解模型（在DocLayNet基础数据集上按段落级别微调LayoutXLM基础模型）（准确率 | 标记：96.93% - 段落：86.55%）