lilt-xlm-roberta-base开源文档理解模型 - 支持多语言文档布局分析免费部署

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Linelevel Ml384

由 pierreguillou 开发

基于LiLT和DocLayNet数据集微调的行级别文档理解模型，支持多语言文档布局分析

下载量 700

发布时间 : 2/9/2023

模型简介

该模型是基于LiLT架构在DocLayNet数据集上微调的文档理解模型，专门用于行级别的文档布局分析和标记分类。它能够识别文档中的标题、文本、表格、图片等11种不同元素类型。

多语言支持

支持英语、德语、法语和日语等多种语言的文档分析

行级别分析

能够精确识别文档中每一行的元素类型，准确率达91.97%

广泛文档类型支持

适用于财务报告、手册、科学文章、法律文件、专利和政府招标等多种文档类型

高精度元素识别

对表格(97.65%)、公式(98.02%)等特定元素有极高的识别准确率

文档布局分析

行级别元素分类

多语言文档处理

PDF文档理解

视觉-语言联合建模

文档处理自动化

财务报告分析

自动识别财务报告中的表格、标题和正文内容

表格识别准确率达97.65%

法律文件处理

提取法律文件中的章节标题、正文和脚注

章节标题识别准确率76.92%

知识管理

科学文献索引

自动分类科学文章中的公式、图片和正文

公式识别准确率98.02%