L

Layout Xlm Base Finetuned With DocLayNet Base At Linelevel Ml384

由pierreguillou開發
基於LayoutXLM基礎模型在DocLayNet數據集上微調的行級別文檔理解模型,支持多語言文檔佈局分析和標記分類。
下載量 103
發布時間 : 3/2/2023

模型概述

該模型專門用於文檔佈局分析和理解,能夠識別和分類文檔中的不同元素(如文本、標題、表格等),適用於處理財務報告、科學論文、法律文件等多種文檔類型。

模型特點

多語言支持
支持英語、德語、法語和日語等多種語言的文檔理解。
行級別分析
在384個標記塊(帶128個標記重疊)的行級別上進行微調,提供精細的文檔元素識別。
高性能標記分類
在DocLayNet評估集上達到0.7336的F1值和0.9373的準確率。

模型能力

文檔佈局分析
標記分類
多語言文本理解
行級別元素識別

使用案例

金融文檔處理
財務報告分析
自動識別財務報告中的表格、標題和正文內容。
提高財務數據提取的效率和準確性。
學術研究
科學論文解析
提取科學論文中的章節標題、圖表和參考文獻。
輔助研究人員快速獲取論文結構信息。
法律文件處理
合同條款識別
自動標記法律文件中的條款、定義和簽名區域。
加速法律文檔審查流程。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase