lilt-xlm-roberta-baseオープンソースドキュメント理解モデル - 多言語ドキュメントレイアウト分析をサポートし、無料でデプロイ可能

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Linelevel Ml384

pierreguillouによって開発

LiLTとDocLayNetデータセットでファインチューニングされた行レベルドキュメント理解モデル、多言語ドキュメントレイアウト分析をサポート

ダウンロード数 700

リリース時間 : 2/9/2023

モデル概要

このモデルはLiLTアーキテクチャをDocLayNetデータセットでファインチューニングしたドキュメント理解モデルで、行レベルのドキュメントレイアウト分析とマーク分類に特化しています。ドキュメント内のタイトル、テキスト、表、画像など11種類の異なる要素タイプを識別できます。

多言語サポート

英語、ドイツ語、フランス語、日本語など多言語のドキュメント分析をサポート

行レベル分析

ドキュメント内の各行の要素タイプを正確に識別でき、精度は91.97%

幅広いドキュメントタイプ対応

財務報告書、マニュアル、科学記事、法律文書、特許、政府調達文書など様々なドキュメントタイプに適用可能

高精度要素認識

表(97.65%)、数式(98.02%)などの特定要素に対して極めて高い認識精度を実現

ドキュメントレイアウト分析

行レベル要素分類

多言語ドキュメント処理

PDFドキュメント理解

視覚-言語連合モデリング

ドキュメント処理自動化

財務報告書分析

財務報告書内の表、タイトル、本文内容を自動識別

表認識精度97.65%

法律文書処理

法律文書から章タイトル、本文、脚注を抽出

章タイトル認識精度76.92%

ナレッジマネジメント

科学文献インデックス作成

科学記事内の数式、画像、本文を自動分類

数式認識精度98.02%

トレーニング損失	エポック	ステップ	検証損失	精度	再現率	F1 スコア	正解率
0.7223	0.21	500	0.7765	0.7741	0.7741	0.7741	0.7741
0.4469	0.42	1000	0.5914	0.8312	0.8312	0.8312	0.8312
0.3819	0.62	1500	0.8745	0.8102	0.8102	0.8102	0.8102
0.3361	0.83	2000	0.6991	0.8337	0.8337	0.8337	0.8337
0.2784	1.04	2500	0.7513	0.8119	0.8119	0.8119	0.8119
0.2377	1.25	3000	0.9048	0.8166	0.8166	0.8166	0.8166
0.2401	1.45	3500	1.2411	0.7939	0.7939	0.7939	0.7939
0.2054	1.66	4000	1.1594	0.8080	0.8080	0.8080	0.8080
0.1909	1.87	4500	0.7545	0.8425	0.8425	0.8425	0.8425
0.1704	2.08	5000	0.8567	0.8318	0.8318	0.8318	0.8318
0.1294	2.29	5500	0.8486	0.8489	0.8489	0.8489	0.8489
0.134	2.49	6000	0.7682	0.8573	0.8573	0.8573	0.8573
0.1354	2.7	6500	0.9871	0.8256	0.8256	0.8256	0.8256
0.1239	2.91	7000	1.1430	0.8189	0.8189	0.8189	0.8189
0.1012	3.12	7500	0.8272	0.8386	0.8386	0.8386	0.8386
0.0788	3.32	8000	1.0288	0.8365	0.8365	0.8365	0.8365
0.0802	3.53	8500	0.7197	0.8849	0.8849	0.8849	0.8849
0.0861	3.74	9000	1.1420	0.8320	0.8320	0.8320	0.8320
0.0639	3.95	9500	0.9563	0.8585	0.8585	0.8585	0.8585
0.0464	4.15	10000	1.0768	0.8511	0.8511	0.8511	0.8511
0.0412	4.36	10500	1.1184	0.8439	0.8439	0.8439	0.8439
0.039	4.57	11000	0.9634	0.8636	0.8636	0.8636	0.8636
0.0469	4.78	11500	0.9585	0.8634	0.8634	0.8634	0.8634
0.0395	4.99	12000	1.0003	0.8584	0.8584	0.8584	0.8584