🚀 文档理解模型(在DocLayNet基础数据集上按段落级别微调LiLT基础模型)
本模型是基于 nielsr/lilt-xlm-roberta-base 模型,使用 DocLayNet基础数据集 进行微调得到的。该模型在评估集上取得了以下成果:
- 损失值:0.4104
- 精确率:0.8634
- 召回率:0.8634
- F1值:0.8634
- 标记准确率:0.8634
- 段落准确率:0.6815
✨ 主要特性
- 多语言支持:支持多种语言,包括英语、德语、法语和日语等。
- 多任务能力:可用于目标检测、图像分割和标记分类等任务。
- 基于大规模数据集训练:使用DocLayNet基础数据集进行训练,该数据集包含来自多种文档类别的大量页面。
- 高精度表现:在评估集上取得了较高的F1值和准确率。
📚 详细文档
段落级准确率
- 段落准确率:68.15%
- 按标签划分的准确率
- 标题说明:22.82%
- 脚注:0.0%
- 公式:97.33%
- 列表项:8.42%
- 页面页脚:98.77%
- 页面页眉:77.81%
- 图片:39.16%
- 章节标题:76.17%
- 表格:37.7%
- 文本:86.78%
- 标题:0.0%


参考文献
博客文章
笔记本(段落级别)
笔记本(行级别)
应用程序
您可以使用Hugging Face Spaces中的此应用程序测试该模型:按段落级别进行文档理解的推理应用程序(v1)。

您也可以运行相应的笔记本:Document AI | 使用按段落级别微调的文档理解模型(在DocLayNet数据集上微调的LiLT模型)进行推理的应用程序
DocLayNet数据集
DocLayNet数据集(IBM)为来自6个文档类别的80863个唯一页面,使用边界框按页面提供了11个不同类别标签的布局分割真实标注。
截至目前,该数据集可以通过直接链接或作为Hugging Face数据集进行下载:
论文:DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis(2022年6月2日)
模型描述
该模型是在 512个标记块(重叠128个标记)的段落级别上进行微调的。因此,该模型使用了数据集中所有页面的所有布局和文本数据进行训练。
在推理时,通过计算最佳概率为每个段落边界框分配标签。
推理
请参阅笔记本:Document AI | 使用按段落级别微调的文档理解模型(在DocLayNet数据集上微调的LiLT模型)进行推理
训练和评估数据
请参阅笔记本:Document AI | 在任何语言下按段落级别(512个标记块,有重叠)在DocLayNet基础数据集上微调LiLT
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:2e-05
- 训练批次大小:8
- 评估批次大小:16
- 随机种子:42
- 优化器:Adam,β=(0.9, 0.999),ε=1e-08
- 学习率调度器类型:线性
- 训练轮数:1
- 混合精度训练:原生自动混合精度(Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
无记录 |
0.05 |
100 |
0.9875 |
0.6585 |
0.6585 |
0.6585 |
0.6585 |
无记录 |
0.11 |
200 |
0.7886 |
0.7551 |
0.7551 |
0.7551 |
0.7551 |
无记录 |
0.16 |
300 |
0.5894 |
0.8248 |
0.8248 |
0.8248 |
0.8248 |
无记录 |
0.21 |
400 |
0.4794 |
0.8396 |
0.8396 |
0.8396 |
0.8396 |
0.7446 |
0.27 |
500 |
0.3993 |
0.8703 |
0.8703 |
0.8703 |
0.8703 |
0.7446 |
0.32 |
600 |
0.3631 |
0.8857 |
0.8857 |
0.8857 |
0.8857 |
0.7446 |
0.37 |
700 |
0.4096 |
0.8630 |
0.8630 |
0.8630 |
0.8630 |
0.7446 |
0.43 |
800 |
0.4492 |
0.8528 |
0.8528 |
0.8528 |
0.8528 |
0.7446 |
0.48 |
900 |
0.3839 |
0.8834 |
0.8834 |
0.8834 |
0.8834 |
0.4464 |
0.53 |
1000 |
0.4365 |
0.8498 |
0.8498 |
0.8498 |
0.8498 |
0.4464 |
0.59 |
1100 |
0.3616 |
0.8812 |
0.8812 |
0.8812 |
0.8812 |
0.4464 |
0.64 |
1200 |
0.3949 |
0.8796 |
0.8796 |
0.8796 |
0.8796 |
0.4464 |
0.69 |
1300 |
0.4184 |
0.8613 |
0.8613 |
0.8613 |
0.8613 |
0.4464 |
0.75 |
1400 |
0.4130 |
0.8743 |
0.8743 |
0.8743 |
0.8743 |
0.3672 |
0.8 |
1500 |
0.4535 |
0.8289 |
0.8289 |
0.8289 |
0.8289 |
0.3672 |
0.85 |
1600 |
0.3681 |
0.8713 |
0.8713 |
0.8713 |
0.8713 |
0.3672 |
0.91 |
1700 |
0.3446 |
0.8857 |
0.8857 |
0.8857 |
0.8857 |
0.3672 |
0.96 |
1800 |
0.4104 |
0.8634 |
0.8634 |
0.8634 |
0.8634 |
框架版本
- Transformers 4.26.1
- Pytorch 1.13.1+cu116
- Datasets 2.9.0
- Tokenizers 0.13.2
其他模型
📄 许可证
本项目采用MIT许可证。