lilt-xlm-roberta-base開源文檔理解模型 - 支持多語言文檔佈局分析免費部署

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Linelevel Ml384

由pierreguillou開發

基於LiLT和DocLayNet數據集微調的行級別文檔理解模型，支持多語言文檔佈局分析

下載量 700

發布時間 : 2/9/2023

模型概述

該模型是基於LiLT架構在DocLayNet數據集上微調的文檔理解模型，專門用於行級別的文檔佈局分析和標記分類。它能夠識別文檔中的標題、文本、表格、圖片等11種不同元素類型。

多語言支持

支持英語、德語、法語和日語等多種語言的文檔分析

行級別分析

能夠精確識別文檔中每一行的元素類型，準確率達91.97%

廣泛文檔類型支持

適用於財務報告、手冊、科學文章、法律文件、專利和政府招標等多種文檔類型

高精度元素識別

對錶格(97.65%)、公式(98.02%)等特定元素有極高的識別準確率

文檔佈局分析

行級別元素分類

多語言文檔處理

PDF文檔理解

視覺-語言聯合建模

文檔處理自動化

財務報告分析

自動識別財務報告中的表格、標題和正文內容

表格識別準確率達97.65%

法律文件處理

提取法律文件中的章節標題、正文和腳註

章節標題識別準確率76.92%

知識管理

科學文獻索引

自動分類科學文章中的公式、圖片和正文

公式識別準確率98.02%