lilt-xlm-roberta-base開源文檔理解模型 - 免費部署實現段落級文檔佈局分析

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Paragraphlevel Ml512

由pierreguillou開發

這是一個文檔理解模型，專門用於分析文檔佈局和內容，在段落級別進行標記分類任務。

文字識別

Transformers

支持多種語言開源協議:MIT #多語言文檔理解 #段落級佈局分析 #金融文檔處理

下載量 126

發布時間 : 2/15/2023

模型概述

該模型基於LiLT架構，使用DocLayNet基礎數據集在段落級別進行微調，能夠識別文檔中的不同段落類型（如標題、文本、表格等）。

模型特點

多語言支持

模型支持多種語言文檔的理解和分析

段落級別分析

能夠識別文檔中不同段落的功能類型

高精度分類

在測試集上達到86.34%的F1值

模型能力

文檔佈局分析

段落類型識別

多語言文檔處理

標記分類

使用案例

文檔處理

財務報告分析

自動識別財務報告中的不同部分（標題、正文、表格等）

準確率86.34%

科學論文處理

分類科學論文中的公式、圖表和正文內容

公式識別準確率97.33%

法律文檔處理

法律條文解析

識別法律文檔中的章節標題和正文內容

🚀 文檔理解模型（在DocLayNet基礎數據集上按段落級別微調LiLT基礎模型）

本模型是基於 nielsr/lilt-xlm-roberta-base 模型，使用 DocLayNet基礎數據集進行微調得到的。該模型在評估集上取得了以下成果：

損失值：0.4104
精確率：0.8634
召回率：0.8634
F1值：0.8634
標記準確率：0.8634
段落準確率：0.6815

✨ 主要特性

多語言支持：支持多種語言，包括英語、德語、法語和日語等。
多任務能力：可用於目標檢測、圖像分割和標記分類等任務。
基於大規模數據集訓練：使用DocLayNet基礎數據集進行訓練，該數據集包含來自多種文檔類別的大量頁面。
高精度表現：在評估集上取得了較高的F1值和準確率。

📚 詳細文檔

段落級準確率

段落準確率：68.15%
按標籤劃分的準確率
- 標題說明：22.82%
- 腳註：0.0%
- 公式：97.33%
- 列表項：8.42%
- 頁面頁腳：98.77%
- 頁面頁眉：77.81%
- 圖片：39.16%
- 章節標題：76.17%
- 表格：37.7%
- 文本：86.78%
- 標題：0.0%

DocLayNet基礎測試數據集的段落標籤與準確率（%）（模型：在DocLayNet基礎數據集上按段落級別微調的LiLT基礎模型）

DocLayNet基礎測試數據集標記塊的混淆矩陣（模型：在DocLayNet基礎數據集上按段落級別微調的LiLT基礎模型）

參考文獻

博客文章

Layout XLM基礎模型
- (2023年5月3日) Document AI | 使用LayoutXLM基礎模型按行級別進行文檔理解的推理應用程序和微調筆記本
LiLT基礎模型
- (2023年2月16日) Document AI | 按段落級別進行文檔理解的推理應用程序和微調筆記本
- (2023年2月14日) Document AI | 按行級別進行文檔理解的推理應用程序
- (2023年2月10日) Document AI | 使用LiLT、Tesseract和DocLayNet數據集按行級別進行文檔理解的模型
- (2023年1月31日) Document AI | DocLayNet圖像查看器應用程序
- (2023年1月27日) Document AI | 處理DocLayNet數據集以供Hugging Face中心的佈局模型使用（微調、推理）

筆記本（段落級別）

LiLT基礎模型

筆記本（行級別）

Layout XLM基礎模型
LiLT基礎模型

應用程序

您可以使用Hugging Face Spaces中的此應用程序測試該模型：按段落級別進行文檔理解的推理應用程序（v1）。

按段落級別進行文檔理解的推理應用程序（v1）

您也可以運行相應的筆記本：Document AI | 使用按段落級別微調的文檔理解模型（在DocLayNet數據集上微調的LiLT模型）進行推理的應用程序

DocLayNet數據集

DocLayNet數據集（IBM）為來自6個文檔類別的80863個唯一頁面，使用邊界框按頁面提供了11個不同類別標籤的佈局分割真實標註。

截至目前，該數據集可以通過直接鏈接或作為Hugging Face數據集進行下載：

直接鏈接：doclaynet_core.zip（28 GiB），doclaynet_extra.zip（7.5 GiB）
Hugging Face數據集庫：DocLayNet數據集

論文：DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis（2022年6月2日）

模型描述

該模型是在 512個標記塊（重疊128個標記）的段落級別上進行微調的。因此，該模型使用了數據集中所有頁面的所有佈局和文本數據進行訓練。

在推理時，通過計算最佳概率為每個段落邊界框分配標籤。

推理

請參閱筆記本：Document AI | 使用按段落級別微調的文檔理解模型（在DocLayNet數據集上微調的LiLT模型）進行推理

訓練和評估數據

請參閱筆記本：Document AI | 在任何語言下按段落級別（512個標記塊，有重疊）在DocLayNet基礎數據集上微調LiLT

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：2e-05
訓練批次大小：8
評估批次大小：16
隨機種子：42
優化器：Adam，β=(0.9, 0.999)，ε=1e-08
學習率調度器類型：線性
訓練輪數：1
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	精確率	召回率	F1值	準確率
無記錄	0.05	100	0.9875	0.6585	0.6585	0.6585	0.6585
無記錄	0.11	200	0.7886	0.7551	0.7551	0.7551	0.7551
無記錄	0.16	300	0.5894	0.8248	0.8248	0.8248	0.8248
無記錄	0.21	400	0.4794	0.8396	0.8396	0.8396	0.8396
0.7446	0.27	500	0.3993	0.8703	0.8703	0.8703	0.8703
0.7446	0.32	600	0.3631	0.8857	0.8857	0.8857	0.8857
0.7446	0.37	700	0.4096	0.8630	0.8630	0.8630	0.8630
0.7446	0.43	800	0.4492	0.8528	0.8528	0.8528	0.8528
0.7446	0.48	900	0.3839	0.8834	0.8834	0.8834	0.8834
0.4464	0.53	1000	0.4365	0.8498	0.8498	0.8498	0.8498
0.4464	0.59	1100	0.3616	0.8812	0.8812	0.8812	0.8812
0.4464	0.64	1200	0.3949	0.8796	0.8796	0.8796	0.8796
0.4464	0.69	1300	0.4184	0.8613	0.8613	0.8613	0.8613
0.4464	0.75	1400	0.4130	0.8743	0.8743	0.8743	0.8743
0.3672	0.8	1500	0.4535	0.8289	0.8289	0.8289	0.8289
0.3672	0.85	1600	0.3681	0.8713	0.8713	0.8713	0.8713
0.3672	0.91	1700	0.3446	0.8857	0.8857	0.8857	0.8857
0.3672	0.96	1800	0.4104	0.8634	0.8634	0.8634	0.8634

框架版本

Transformers 4.26.1
Pytorch 1.13.1+cu116
Datasets 2.9.0
Tokenizers 0.13.2

其他模型

行級別
- 文檔理解模型（在DocLayNet基礎數據集上按行級別微調LiLT基礎模型）（準確率 | 標記：85.84% - 行：91.97%）
- 文檔理解模型（在DocLayNet基礎數據集上按行級別微調LayoutXLM基礎模型）（準確率 | 標記：93.73% - 行：...）
段落級別
- 文檔理解模型（在DocLayNet基礎數據集上按段落級別微調LiLT基礎模型）（準確率 | 標記：86.34% - 段落：68.15%）
- 文檔理解模型（在DocLayNet基礎數據集上按段落級別微調LayoutXLM基礎模型）（準確率 | 標記：96.93% - 段落：86.55%）