Dolphin開源多模態文檔圖像解析模型 - 先分析後解析處理複雜文檔元素

首頁

Dolphin

由ByteDance開發

海豚是一種創新的多模態文檔圖像解析模型，採用'先分析後解析'的範式處理複雜文檔元素。

圖像生成文本

Transformers

支持多種語言開源協議:MIT #兩階段文檔解析 #異構錨點提示 #多元素並行處理

下載量 1,620

發布時間 : 5/19/2025

模型概述

海豚是一種用於文檔圖像解析的多模態模型，能夠處理文本段落、圖表、公式和表格等複雜交織的文檔元素。它通過兩階段方法實現全面的頁面級佈局分析和高效的元素級解析。

模型特點

兩階段解析方法

先進行頁面級佈局分析，再進行元素級解析，有效處理複雜文檔結構

異構錨點提示

使用自然語言提示控制解析任務，提高解析效率和準確性

並行解析機制

輕量級架構支持多種文檔元素的並行解析，提高處理效率

多模態能力

同時處理視覺和文本信息，適用於複雜文檔理解任務

模型能力

文檔圖像解析

版面分析

表格提取

光學字符識別

公式識別

圖表理解

多模態處理

使用案例

文檔數字化

掃描文檔解析

將掃描的PDF或圖像轉換為結構化數字文檔

保留原始文檔的佈局和內容結構

信息提取

表格數據提取

從文檔圖像中提取表格數據並轉換為結構化格式

高精度的表格結構識別和數據提取

公式識別

識別文檔中的數學公式並轉換為可編輯格式

支持複雜數學符號和結構的識別

🚀 Dolphin：基於異構錨點提示的文檔圖像解析

Dolphin是一款新穎的多模態文檔圖像解析模型，採用先分析後解析的範式。它通過兩階段方法應對複雜文檔理解的挑戰，能夠處理文本段落、圖表、公式和表格等相互交織的元素，為文檔處理提供了高效且準確的解決方案。

🚀 快速開始

我們的演示將在近日發佈，請持續關注！具體使用方法請參考我們的 GitHub倉庫：

逐頁解析：用於處理整個文檔圖像
逐元素解析：用於處理單個元素（段落、表格、公式）圖像

✨ 主要特性

兩階段處理：通過兩階段方法應對文檔圖像解析中元素複雜交織的挑戰。第一階段按自然閱讀順序生成元素序列進行全面的頁面級佈局分析；第二階段使用異構錨點和特定任務提示對文檔元素進行高效並行解析。
多模態融合：結合視覺和語言信息，實現對文檔圖像的深入理解。
高效性能：憑藉輕量級架構和並行解析機制，在各種頁面級和元素級解析任務中取得了良好的性能，同時確保了卓越的效率。

📚 詳細文檔

模型描述

Dolphin（通過異構錨點提示進行文檔圖像解析）是一種新穎的多模態文檔圖像解析模型，遵循先分析後解析的範式。它通過兩階段方法應對複雜文檔理解的挑戰，旨在處理文本段落、圖表、公式和表格等相互交織的元素。

概述

由於文檔圖像中存在文本段落、圖表、公式和表格等複雜交織的元素，文檔圖像解析具有挑戰性。Dolphin通過兩階段方法應對這些挑戰：

階段1：按自然閱讀順序生成元素序列，進行全面的頁面級佈局分析。
階段2：使用異構錨點和特定任務提示對文檔元素進行高效並行解析。

Dolphin在各種頁面級和元素級解析任務中取得了良好的性能，同時通過其輕量級架構和並行解析機制確保了卓越的效率。

模型架構

Dolphin基於Transformer構建了一個視覺編碼器 - 解碼器架構：

視覺編碼器：基於Swin Transformer從文檔圖像中提取視覺特徵。
文本解碼器：基於MBart從視覺特徵中解碼文本。
基於提示的接口：使用自然語言提示控制解析任務。

該模型實現為Hugging Face的 VisionEncoderDecoderModel，便於與Transformers生態系統集成。

📄 許可證

本模型遵循MIT許可證發佈。

📚 引用

@inproceedings{dolphin2025,
  title={Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting},
  author={Feng, Hao and Wei, Shu and Fei, Xiang and Shi, Wei and Han, Yingdong and Liao, Lei and Lu, Jinghui and Wu, Binghong and Liu, Qi and Lin, Chunhui and Tang, Jingqun and Liu, Hao and Huang, Can},
  year={2025},
  booktitle={Proceedings of the 65rd Annual Meeting of the Association for Computational Linguistics (ACL)}
}