D

Dolphin

由ByteDance開發
海豚是一種創新的多模態文檔圖像解析模型,採用'先分析後解析'的範式處理複雜文檔元素。
下載量 1,620
發布時間 : 5/19/2025

模型概述

海豚是一種用於文檔圖像解析的多模態模型,能夠處理文本段落、圖表、公式和表格等複雜交織的文檔元素。它通過兩階段方法實現全面的頁面級佈局分析和高效的元素級解析。

模型特點

兩階段解析方法
先進行頁面級佈局分析,再進行元素級解析,有效處理複雜文檔結構
異構錨點提示
使用自然語言提示控制解析任務,提高解析效率和準確性
並行解析機制
輕量級架構支持多種文檔元素的並行解析,提高處理效率
多模態能力
同時處理視覺和文本信息,適用於複雜文檔理解任務

模型能力

文檔圖像解析
版面分析
表格提取
光學字符識別
公式識別
圖表理解
多模態處理

使用案例

文檔數字化
掃描文檔解析
將掃描的PDF或圖像轉換為結構化數字文檔
保留原始文檔的佈局和內容結構
信息提取
表格數據提取
從文檔圖像中提取表格數據並轉換為結構化格式
高精度的表格結構識別和數據提取
公式識別
識別文檔中的數學公式並轉換為可編輯格式
支持複雜數學符號和結構的識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase