Dolphinオープンソース多モーダル文書画像解析モデル - まず分析してから解析し、複雑な文書要素を処理する

ホーム

Dolphin

ByteDanceによって開発

ドルフィンは革新的なマルチモーダルドキュメント画像解析モデルで、'分析してから解析する'というパラダイムを用いて複雑なドキュメント要素を処理します。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #2段階ドキュメント解析 #異種アンカーヒント #マルチエレメント並列処理

ダウンロード数 1,620

リリース時間 : 5/19/2025

モデル概要

ドルフィンはドキュメント画像解析のためのマルチモーダルモデルで、テキスト段落、図表、数式、表など複雑に絡み合ったドキュメント要素を処理できます。2段階のアプローチで包括的なページレイアウト分析と効率的な要素レベル解析を実現します。

モデル特徴

2段階解析アプローチ

まずページレベルのレイアウト分析を行い、次に要素レベルの解析を行うことで、複雑なドキュメント構造を効果的に処理

異種アンカーヒント

自然言語ヒントを使用して解析タスクを制御し、解析効率と精度を向上

並列解析メカニズム

軽量アーキテクチャが複数のドキュメント要素の並列解析をサポートし、処理効率を向上

マルチモーダル能力

視覚情報とテキスト情報を同時に処理し、複雑なドキュメント理解タスクに適応

モデル能力

ドキュメント画像解析

レイアウト分析

表抽出

光学文字認識

数式認識

図表理解

マルチモーダル処理

使用事例

ドキュメントデジタル化

スキャン文書解析

スキャンしたPDFや画像を構造化されたデジタル文書に変換

元の文書のレイアウトと内容構造を保持

情報抽出

表データ抽出

ドキュメント画像から表データを抽出し構造化フォーマットに変換

高精度な表構造認識とデータ抽出

数式認識

ドキュメント内の数式を認識し編集可能なフォーマットに変換

複雑な数学記号や構造の認識をサポート

🚀 ドルフィン: 異種アンカープロンプトによる文書画像解析

Dolphin（Document Image Parsing via Heterogeneous Anchor Prompting）は、解析してからパースするパラダイムに従う、新しいマルチモーダル文書画像解析モデルです。このモデルは、テキスト段落、図、数式、表などの複雑に絡み合った要素を扱うために設計された2段階アプローチを通じて、複雑な文書理解の課題に対処します。

🚀 クイックスタート

近日中にデモを公開予定です。お楽しみに！

詳細な使用方法については、GitHubリポジトリを参照してください。

ページ単位の解析: 文書画像全体に対する解析
要素単位の解析: 要素（段落、表、数式）画像に対する解析

✨ 主な機能

文書画像解析は、テキスト段落、図、数式、表などの複雑に絡み合った要素のために困難です。Dolphinは、次の2段階アプローチでこれらの課題に対処します。

第1段階: 自然な読み順で要素シーケンスを生成することによる包括的なページレベルのレイアウト解析
第2段階: 異種アンカーとタスク固有のプロンプトを使用した文書要素の効率的な並列パース

Dolphinは、軽量なアーキテクチャと並列パースメカニズムにより、多様なページレベルと要素レベルのパースタスクで有望なパフォーマンスを達成し、優れた効率性を確保します。

🔧 技術詳細

モデルアーキテクチャ

Dolphinは、トランスフォーマーを使用したビジョンエンコーダーデコーダーアーキテクチャに基づいて構築されています。

ビジョンエンコーダー: 文書画像から視覚的特徴を抽出するためのSwin Transformerに基づいています。
テキストデコーダー: 視覚的特徴からテキストをデコードするためのMBartに基づいています。
プロンプトベースのインターフェース: パースタスクを制御するために自然言語プロンプトを使用します。

このモデルは、Transformersエコシステムとの簡単な統合のために、Hugging FaceのVisionEncoderDecoderModelとして実装されています。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

引用

@inproceedings{dolphin2025,
  title={Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting},
  author={Feng, Hao and Wei, Shu and Fei, Xiang and Shi, Wei and Han, Yingdong and Liao, Lei and Lu, Jinghui and Wu, Binghong and Liu, Qi and Lin, Chunhui and Tang, Jingqun and Liu, Hao and Huang, Can},
  year={2025},
  booktitle={Proceedings of the 65rd Annual Meeting of the Association for Computational Linguistics (ACL)}
}