Layout Xlm Base Finetuned With DocLayNet Base At Linelevel Ml384
LayoutXLMベースモデルをDocLayNetデータセットで微調整した行レベルドキュメント理解モデルで、多言語ドキュメントのレイアウト分析とマーク分類をサポートします。
ダウンロード数 103
リリース時間 : 3/2/2023
モデル概要
このモデルはドキュメントのレイアウト分析と理解に特化しており、テキスト、見出し、表などのドキュメント内のさまざまな要素を識別・分類できます。財務報告書、科学論文、法律文書など、さまざまなドキュメントタイプの処理に適しています。
モデル特徴
多言語サポート
英語、ドイツ語、フランス語、日本語など、複数言語のドキュメント理解をサポートします。
行レベル分析
384トークンブロック(128トークンのオーバーラップ付き)の行レベルで微調整されており、詳細なドキュメント要素の識別を提供します。
高性能マーク分類
DocLayNet評価セットでF1値0.7336、精度0.9373を達成しました。
モデル能力
ドキュメントレイアウト分析
マーク分類
多言語テキスト理解
行レベル要素識別
使用事例
金融ドキュメント処理
財務報告書分析
財務報告書内の表、見出し、本文コンテンツを自動識別します。
財務データ抽出の効率と精度を向上させます。
学術研究
科学論文解析
科学論文から章見出し、図表、参考文献を抽出します。
研究者が論文構造情報を迅速に取得するのを支援します。
法律文書処理
契約条項識別
法律文書内の条項、定義、署名領域を自動マークします。
法律文書レビュープロセスを加速します。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98