layout-xlm-base-finetuned-with-DocLayNet-base-at-paragraphlevel-ml512開源模型

首頁

Layout Xlm Base Finetuned With DocLayNet Base At Paragraphlevel Ml512

由pierreguillou開發

該模型是基於LayoutXLM基礎模型在DocLayNet數據集上微調的版本，專門用於文檔佈局分析和段落級內容理解。

文字識別

Transformers

支持多種語言開源協議:MIT #多語言文檔理解 #金融法律文檔分析 #段落級佈局識別

下載量 79

發布時間 : 3/25/2023

模型概述

這是一個多語言文檔理解模型，能夠識別和分析PDF文檔中的段落級別元素，如標題、文本、表格、圖片等。

模型特點

段落級文檔理解

能夠識別和分析文檔中的段落級別元素，包括標題、文本、表格、圖片等11種不同類型

多語言支持

支持英語、德語、法語和日語等多種語言的文檔分析

高準確率

在DocLayNet測試集上取得了86.55%的段落準確率和96.93%的標記準確率

模型能力

文檔佈局分析

段落分類

多語言文檔處理

PDF內容理解

使用案例

金融文檔處理

財務報告分析

自動識別財務報告中的不同部分，如表格、文本和標題

準確率高達90%以上

法律文檔處理

法律條文解析

識別法律文檔中的章節、條款和註釋

章節標題識別準確率83.16%

科學文獻處理

科學論文解析

識別論文中的公式和圖表

公式識別準確率95.33%

訓練損失	輪數	步數	準確率	F1值	驗證損失	精確率	召回率
無記錄	0.11	200	0.8842	0.1066	0.4428	0.1154	0.0991
無記錄	0.21	400	0.9243	0.4440	0.3040	0.4548	0.4336
0.7241	0.32	600	0.9359	0.5544	0.2265	0.5330	0.5775
0.7241	0.43	800	0.9479	0.6015	0.2140	0.6013	0.6017
0.2343	0.53	1000	0.9402	0.6132	0.2852	0.6642	0.5695
0.2343	0.64	1200	0.9540	0.6604	0.1694	0.6565	0.6644
0.2343	0.75	1400	0.9354	0.6198	0.2308	0.5119	0.7854
0.1913	0.85	1600	0.9594	0.6590	0.1601	0.7190	0.6082
0.1913	0.96	1800	0.9541	0.6597	0.1671	0.5790	0.7664
0.1346	1.07	2000	0.9612	0.6986	0.1580	0.6838	0.7140
0.1346	1.17	2200	0.9597	0.6897	0.1423	0.6618	0.7200
0.1346	1.28	2400	0.9663	0.6980	0.1580	0.7490	0.6535
0.098	1.39	2600	0.9616	0.6800	0.1394	0.7044	0.6573
0.098	1.49	2800	0.9686	0.7251	0.1756	0.6893	0.7649
0.0999	1.6	3000	0.9636	0.6985	0.1542	0.7127	0.6848
0.0999	1.71	3200	0.9670	0.7097	0.1187	0.7538	0.6705
0.0999	1.81	3400	0.9585	0.7427	0.1793	0.7602	0.7260
0.0972	1.92	3600	0.9621	0.7189	0.1836	0.7576	0.6839
0.0972	2.03	3800	0.9642	0.7189	0.1465	0.7388	0.6999
0.0662	2.13	4000	0.9691	0.7450	0.1409	0.7615	0.7292
0.0662	2.24	4200	0.9615	0.7432	0.1720	0.7435	0.7429
0.0662	2.35	4400	0.9667	0.7338	0.1440	0.7469	0.7212
0.0581	2.45	4600	0.9657	0.7135	0.1928	0.7458	0.6839
0.0581	2.56	4800	0.9692	0.7378	0.1645	0.7467	0.7292
0.0538	2.67	5000	0.9656	0.7619	0.1517	0.7700	0.7541
0.0538	2.77	5200	0.9684	0.7728	0.1676	0.8227	0.7286
0.0538	2.88	5400	0.9725	0.7608	0.1277	0.7865	0.7367
0.0432	2.99	5600	0.9693	0.7784	0.1532	0.7891	0.7681
0.0432	3.09	5800	0.9692	0.7783	0.1701	0.8067	0.7519
0.0272	3.2	6000	0.9732	0.7798	0.1159	0.8072	0.7542
0.0272	3.3	6200	0.9720	0.7797	0.1835	0.7926	0.7672
0.0272	3.41	6400	0.9730	0.7894	0.1481	0.8183	0.7624
0.0274	3.52	6600	0.9686	0.7655	0.1552	0.7958	0.7373
0.0274	3.62	6800	0.9698	0.7724	0.1523	0.8068	0.7407
0.0246	3.73	7000	0.9691	0.7720	0.1673	0.7960	0.7493
0.0246	3.84	7200	0.9688	0.7695	0.1333	0.7986	0.7424
0.0246	3.94	7400	0.1796	0.8062	0.7441	0.7739	0.9693