D

Dolphin

由 ByteDance 开发
海豚是一种创新的多模态文档图像解析模型,采用'先分析后解析'的范式处理复杂文档元素。
下载量 1,620
发布时间 : 5/19/2025

模型简介

海豚是一种用于文档图像解析的多模态模型,能够处理文本段落、图表、公式和表格等复杂交织的文档元素。它通过两阶段方法实现全面的页面级布局分析和高效的元素级解析。

模型特点

两阶段解析方法
先进行页面级布局分析,再进行元素级解析,有效处理复杂文档结构
异构锚点提示
使用自然语言提示控制解析任务,提高解析效率和准确性
并行解析机制
轻量级架构支持多种文档元素的并行解析,提高处理效率
多模态能力
同时处理视觉和文本信息,适用于复杂文档理解任务

模型能力

文档图像解析
版面分析
表格提取
光学字符识别
公式识别
图表理解
多模态处理

使用案例

文档数字化
扫描文档解析
将扫描的PDF或图像转换为结构化数字文档
保留原始文档的布局和内容结构
信息提取
表格数据提取
从文档图像中提取表格数据并转换为结构化格式
高精度的表格结构识别和数据提取
公式识别
识别文档中的数学公式并转换为可编辑格式
支持复杂数学符号和结构的识别
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase