layout-xlm-base-finetuned-with-DocLayNet-base-at-paragraphlevel-ml512オープンソースモデル - 高精度なドキュメントレイアウト分析と段落内容理解

ホーム

Layout Xlm Base Finetuned With DocLayNet Base At Paragraphlevel Ml512

pierreguillouによって開発

このモデルはLayoutXLMベースモデルをDocLayNetデータセットで微調整したバージョンで、ドキュメントレイアウト分析と段落レベルの内容理解に特化しています。

文字認識

Transformers

複数言語対応オープンソースライセンス:MIT #多言語ドキュメント理解 #金融法律文書分析 #段落レベルのレイアウト認識

ダウンロード数 79

リリース時間 : 3/25/2023

モデル概要

これは多言語ドキュメント理解モデルで、PDFドキュメント内の段落レベル要素（タイトル、テキスト、表、画像など）を識別・分析できます。

モデル特徴

段落レベルのドキュメント理解

ドキュメント内の段落レベル要素（タイトル、テキスト、表、画像など11種類）を識別・分析可能

多言語サポート

英語、ドイツ語、フランス語、日本語など多言語のドキュメント分析に対応

高精度

DocLayNetテストセットで段落精度86.55%、タグ精度96.93%を達成

モデル能力

ドキュメントレイアウト分析

段落分類

多言語ドキュメント処理

PDF内容理解

使用事例

金融文書処理

財務報告書分析

財務報告書の表、テキスト、タイトルなど異なる部分を自動識別

90%以上の高精度

法律文書処理

法律条文解析

法律文書の章、条項、注釈を識別

章タイトル識別精度83.16%

科学文献処理

科学論文解析

論文内の数式と図表を識別

数式識別精度95.33%

トレーニング損失	エポック	ステップ	精度	F1	検証損失	精度	再現率
記録なし	0.11	200	0.8842	0.1066	0.4428	0.1154	0.0991
記録なし	0.21	400	0.9243	0.4440	0.3040	0.4548	0.4336
0.7241	0.32	600	0.9359	0.5544	0.2265	0.5330	0.5775
0.7241	0.43	800	0.9479	0.6015	0.2140	0.6013	0.6017
0.2343	0.53	1000	0.9402	0.6132	0.2852	0.6642	0.5695
0.2343	0.64	1200	0.9540	0.6604	0.1694	0.6565	0.6644
0.2343	0.75	1400	0.9354	0.6198	0.2308	0.5119	0.7854
0.1913	0.85	1600	0.9594	0.6590	0.1601	0.7190	0.6082
0.1913	0.96	1800	0.9541	0.6597	0.1671	0.5790	0.7664
0.1346	1.07	2000	0.9612	0.6986	0.1580	0.6838	0.7140
0.1346	1.17	2200	0.9597	0.6897	0.1423	0.6618	0.7200
0.1346	1.28	2400	0.9663	0.6980	0.1580	0.7490	0.6535
0.098	1.39	2600	0.9616	0.6800	0.1394	0.7044	0.6573
0.098	1.49	2800	0.9686	0.7251	0.1756	0.6893	0.7649
0.0999	1.6	3000	0.9636	0.6985	0.1542	0.7127	0.6848
0.0999	1.71	3200	0.9670	0.7097	0.1187	0.7538	0.6705
0.0999	1.81	3400	0.9585	0.7427	0.1793	0.7602	0.7260
0.0972	1.92	3600	0.9621	0.7189	0.1836	0.7576	0.6839
0.0972	2.03	3800	0.9642	0.7189	0.1465	0.7388	0.6999
0.0662	2.13	4000	0.9691	0.7450	0.1409	0.7615	0.7292
0.0662	2.24	4200	0.9615	0.7432	0.1720	0.7435	0.7429
0.0662	2.35	4400	0.9667	0.7338	0.1440	0.7469	0.7212
0.0581	2.45	4600	0.9657	0.7135	0.1928	0.7458	0.6839
0.0581	2.56	4800	0.9692	0.7378	0.1645	0.7467	0.7292
0.0538	2.67	5000	0.9656	0.7619	0.1517	0.7700	0.7541
0.0538	2.77	5200	0.9684	0.7728	0.1676	0.8227	0.7286
0.0538	2.88	5400	0.9725	0.7608	0.1277	0.7865	0.7367
0.0432	2.99	5600	0.9693	0.7784	0.1532	0.7891	0.7681
0.0432	3.09	5800	0.9692	0.7783	0.1701	0.8067	0.7519
0.0272	3.2	6000	0.9732	0.7798	0.1159	0.8072	0.7542
0.0272	3.3	6200	0.9720	0.7797	0.1835	0.7926	0.7672
0.0272	3.41	6400	0.9730	0.7894	0.1481	0.8183	0.7624
0.0274	3.52	6600	0.9686	0.7655	0.1552	0.7958	0.7373
0.0274	3.62	6800	0.9698	0.7724	0.1523	0.8068	0.7407
0.0246	3.73	7000	0.9691	0.7720	0.1673	0.7960	0.7493
0.0246	3.84	7200	0.9688	0.7695	0.1333	0.7986	0.7424
0.0246	3.94	7400	0.1796	0.8062	0.7441	0.7739	0.9693