L

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Linelevel Ml384

由pierreguillou開發
基於LiLT和DocLayNet數據集微調的行級別文檔理解模型,支持多語言文檔佈局分析
下載量 700
發布時間 : 2/9/2023

模型概述

該模型是基於LiLT架構在DocLayNet數據集上微調的文檔理解模型,專門用於行級別的文檔佈局分析和標記分類。它能夠識別文檔中的標題、文本、表格、圖片等11種不同元素類型。

模型特點

多語言支持
支持英語、德語、法語和日語等多種語言的文檔分析
行級別分析
能夠精確識別文檔中每一行的元素類型,準確率達91.97%
廣泛文檔類型支持
適用於財務報告、手冊、科學文章、法律文件、專利和政府招標等多種文檔類型
高精度元素識別
對錶格(97.65%)、公式(98.02%)等特定元素有極高的識別準確率

模型能力

文檔佈局分析
行級別元素分類
多語言文檔處理
PDF文檔理解
視覺-語言聯合建模

使用案例

文檔處理自動化
財務報告分析
自動識別財務報告中的表格、標題和正文內容
表格識別準確率達97.65%
法律文件處理
提取法律文件中的章節標題、正文和腳註
章節標題識別準確率76.92%
知識管理
科學文獻索引
自動分類科學文章中的公式、圖片和正文
公式識別準確率98.02%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase