Layout-XLM開源文檔理解模型 - 免費支持多語言文檔佈局分析與標記分類

Layout Xlm Base Finetuned With DocLayNet Base At Linelevel Ml384

由pierreguillou開發

基於LayoutXLM基礎模型在DocLayNet數據集上微調的行級別文檔理解模型，支持多語言文檔佈局分析和標記分類。

下載量 103

發布時間 : 3/2/2023

模型概述

該模型專門用於文檔佈局分析和理解，能夠識別和分類文檔中的不同元素（如文本、標題、表格等），適用於處理財務報告、科學論文、法律文件等多種文檔類型。

多語言支持

支持英語、德語、法語和日語等多種語言的文檔理解。

行級別分析

在384個標記塊（帶128個標記重疊）的行級別上進行微調，提供精細的文檔元素識別。

高性能標記分類

在DocLayNet評估集上達到0.7336的F1值和0.9373的準確率。

文檔佈局分析

標記分類

多語言文本理解

行級別元素識別

金融文檔處理

財務報告分析

自動識別財務報告中的表格、標題和正文內容。

提高財務數據提取的效率和準確性。

學術研究

科學論文解析

提取科學論文中的章節標題、圖表和參考文獻。

輔助研究人員快速獲取論文結構信息。

法律文件處理

合同條款識別

自動標記法律文件中的條款、定義和簽名區域。

加速法律文檔審查流程。