L

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Linelevel Ml384

pierreguillouによって開発
LiLTとDocLayNetデータセットでファインチューニングされた行レベルドキュメント理解モデル、多言語ドキュメントレイアウト分析をサポート
ダウンロード数 700
リリース時間 : 2/9/2023

モデル概要

このモデルはLiLTアーキテクチャをDocLayNetデータセットでファインチューニングしたドキュメント理解モデルで、行レベルのドキュメントレイアウト分析とマーク分類に特化しています。ドキュメント内のタイトル、テキスト、表、画像など11種類の異なる要素タイプを識別できます。

モデル特徴

多言語サポート
英語、ドイツ語、フランス語、日本語など多言語のドキュメント分析をサポート
行レベル分析
ドキュメント内の各行の要素タイプを正確に識別でき、精度は91.97%
幅広いドキュメントタイプ対応
財務報告書、マニュアル、科学記事、法律文書、特許、政府調達文書など様々なドキュメントタイプに適用可能
高精度要素認識
表(97.65%)、数式(98.02%)などの特定要素に対して極めて高い認識精度を実現

モデル能力

ドキュメントレイアウト分析
行レベル要素分類
多言語ドキュメント処理
PDFドキュメント理解
視覚-言語連合モデリング

使用事例

ドキュメント処理自動化
財務報告書分析
財務報告書内の表、タイトル、本文内容を自動識別
表認識精度97.65%
法律文書処理
法律文書から章タイトル、本文、脚注を抽出
章タイトル認識精度76.92%
ナレッジマネジメント
科学文献インデックス作成
科学記事内の数式、画像、本文を自動分類
数式認識精度98.02%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase