🚀 文檔理解模型(在DocLayNet基礎數據集上按行微調LiLT基礎模型)
該模型是一個文檔理解模型,基於nielsr/lilt-xlm-roberta-base在DocLayNet基礎數據集上進行微調。它能對文檔佈局進行精準分析和分類,在文檔理解任務中表現出色,為處理各類文檔提供了有效的解決方案。
🚀 快速開始
此模型可通過Hugging Face Spaces中的APP進行測試:行級文檔理解推理應用(v1)。

✨ 主要特性
- 多語言支持:支持多種語言,包括英語、德語、法語和日語等。
- 多任務處理:可用於目標檢測、圖像分割和標記分類等任務。
- 高精度表現:在評估集上取得了較高的準確率、召回率和F1值。
📚 詳細文檔
評估集結果
該模型在評估集上取得了以下結果:
- 損失:1.0003
- 精確率:0.8584
- 召回率:0.8584
- F1值:0.8584
- 標記準確率:0.8584
- 行準確率:0.9197
行級準確率
- 行準確率:91.97%
- 按標籤分類的準確率:
- 標題說明:79.42%
- 腳註:68.21%
- 公式:98.02%
- 列表項:82.72%
- 頁面頁腳:99.17%
- 頁面頁眉:84.18%
- 圖片:83.2%
- 章節標題:76.92%
- 表格:97.65%
- 文本:91.17%
- 標題:77.46%


參考資料
博客文章
筆記本(段落級)
筆記本(行級)
DocLayNet數據集
DocLayNet數據集(IBM)為來自6個文檔類別的80863個唯一頁面,提供了逐頁佈局分割的真實標註,使用邊界框標註了11個不同的類別標籤。
到目前為止,該數據集可以通過直接鏈接下載,也可以從Hugging Face數據集庫中獲取:
論文:DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis(2022年6月2日)
模型描述
該模型是在384個標記塊上按行級進行微調,標記塊重疊128個標記。因此,該模型使用了數據集中所有頁面的佈局和文本數據進行訓練。
在推理時,通過計算最佳概率為每個行邊界框分配標籤。
推理
請參閱筆記本:文檔AI | 使用文檔理解模型(在DocLayNet數據集上微調的LiLT)進行行級推理
訓練和評估數據
請參閱筆記本:文檔AI | 在任何語言下按行級(384個標記塊,有重疊)在DocLayNet基礎數據集上微調LiLT
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:5e-05
- 訓練批次大小:8
- 評估批次大小:16
- 隨機種子:42
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 訓練輪數:5
- 混合精度訓練:原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
F1值 |
準確率 |
0.7223 |
0.21 |
500 |
0.7765 |
0.7741 |
0.7741 |
0.7741 |
0.7741 |
0.4469 |
0.42 |
1000 |
0.5914 |
0.8312 |
0.8312 |
0.8312 |
0.8312 |
0.3819 |
0.62 |
1500 |
0.8745 |
0.8102 |
0.8102 |
0.8102 |
0.8102 |
0.3361 |
0.83 |
2000 |
0.6991 |
0.8337 |
0.8337 |
0.8337 |
0.8337 |
0.2784 |
1.04 |
2500 |
0.7513 |
0.8119 |
0.8119 |
0.8119 |
0.8119 |
0.2377 |
1.25 |
3000 |
0.9048 |
0.8166 |
0.8166 |
0.8166 |
0.8166 |
0.2401 |
1.45 |
3500 |
1.2411 |
0.7939 |
0.7939 |
0.7939 |
0.7939 |
0.2054 |
1.66 |
4000 |
1.1594 |
0.8080 |
0.8080 |
0.8080 |
0.8080 |
0.1909 |
1.87 |
4500 |
0.7545 |
0.8425 |
0.8425 |
0.8425 |
0.8425 |
0.1704 |
2.08 |
5000 |
0.8567 |
0.8318 |
0.8318 |
0.8318 |
0.8318 |
0.1294 |
2.29 |
5500 |
0.8486 |
0.8489 |
0.8489 |
0.8489 |
0.8489 |
0.134 |
2.49 |
6000 |
0.7682 |
0.8573 |
0.8573 |
0.8573 |
0.8573 |
0.1354 |
2.7 |
6500 |
0.9871 |
0.8256 |
0.8256 |
0.8256 |
0.8256 |
0.1239 |
2.91 |
7000 |
1.1430 |
0.8189 |
0.8189 |
0.8189 |
0.8189 |
0.1012 |
3.12 |
7500 |
0.8272 |
0.8386 |
0.8386 |
0.8386 |
0.8386 |
0.0788 |
3.32 |
8000 |
1.0288 |
0.8365 |
0.8365 |
0.8365 |
0.8365 |
0.0802 |
3.53 |
8500 |
0.7197 |
0.8849 |
0.8849 |
0.8849 |
0.8849 |
0.0861 |
3.74 |
9000 |
1.1420 |
0.8320 |
0.8320 |
0.8320 |
0.8320 |
0.0639 |
3.95 |
9500 |
0.9563 |
0.8585 |
0.8585 |
0.8585 |
0.8585 |
0.0464 |
4.15 |
10000 |
1.0768 |
0.8511 |
0.8511 |
0.8511 |
0.8511 |
0.0412 |
4.36 |
10500 |
1.1184 |
0.8439 |
0.8439 |
0.8439 |
0.8439 |
0.039 |
4.57 |
11000 |
0.9634 |
0.8636 |
0.8636 |
0.8636 |
0.8636 |
0.0469 |
4.78 |
11500 |
0.9585 |
0.8634 |
0.8634 |
0.8634 |
0.8634 |
0.0395 |
4.99 |
12000 |
1.0003 |
0.8584 |
0.8584 |
0.8584 |
0.8584 |
框架版本
- Transformers 4.26.0
- Pytorch 1.13.1+cu116
- Datasets 2.9.0
- Tokenizers 0.13.2
其他模型
📄 許可證
本項目採用MIT許可證。