lilt-xlm-roberta-baseオープンソース文書理解モデル - 無料でデプロイして段落レベルの文書レイアウト分析を実現

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Paragraphlevel Ml512

pierreguillouによって開発

これはドキュメント理解モデルで、ドキュメントのレイアウトと内容を分析するために特別に設計されており、段落レベルでのタグ分類タスクを実行します。

ダウンロード数 126

リリース時間 : 2/15/2023

モデル概要

このモデルはLiLTアーキテクチャに基づいており、DocLayNetベースデータセットを使用して段落レベルでファインチューニングされており、ドキュメント内のさまざまな段落タイプ（タイトル、テキスト、表など）を識別できます。

多言語サポート

モデルは複数言語のドキュメントの理解と分析をサポートします

段落レベル分析

ドキュメント内の異なる段落の機能タイプを識別できます

高精度分類

テストセットで86.34%のF1値を達成

ドキュメントレイアウト分析

段落タイプ識別

多言語ドキュメント処理

タグ分類

ドキュメント処理

財務報告書分析

財務報告書の異なる部分（タイトル、本文、表など）を自動的に識別

精度86.34%

科学論文処理

科学論文内の数式、図表、本文内容を分類

数式認識精度97.33%

法律文書処理

法律条文解析

法律文書内の章タイトルと本文内容を識別

トレーニング損失	エポック	ステップ	検証損失	適合率	再現率	F1値	精度
ログなし	0.05	100	0.9875	0.6585	0.6585	0.6585	0.6585
ログなし	0.11	200	0.7886	0.7551	0.7551	0.7551	0.7551
ログなし	0.16	300	0.5894	0.8248	0.8248	0.8248	0.8248
ログなし	0.21	400	0.4794	0.8396	0.8396	0.8396	0.8396
0.7446	0.27	500	0.3993	0.8703	0.8703	0.8703	0.8703
0.7446	0.32	600	0.3631	0.8857	0.8857	0.8857	0.8857
0.7446	0.37	700	0.4096	0.8630	0.8630	0.8630	0.8630
0.7446	0.43	800	0.4492	0.8528	0.8528	0.8528	0.8528
0.7446	0.48	900	0.3839	0.8834	0.8834	0.8834	0.8834
0.4464	0.53	1000	0.4365	0.8498	0.8498	0.8498	0.8498
0.4464	0.59	1100	0.3616	0.8812	0.8812	0.8812	0.8812
0.4464	0.64	1200	0.3949	0.8796	0.8796	0.8796	0.8796
0.4464	0.69	1300	0.4184	0.8613	0.8613	0.8613	0.8613
0.4464	0.75	1400	0.4130	0.8743	0.8743	0.8743	0.8743
0.3672	0.8	1500	0.4535	0.8289	0.8289	0.8289	0.8289
0.3672	0.85	1600	0.3681	0.8713	0.8713	0.8713	0.8713
0.3672	0.91	1700	0.3446	0.8857	0.8857	0.8857	0.8857
0.3672	0.96	1800	0.4104	0.8634	0.8634	0.8634	0.8634