donut-base-finetuned-cord-v1-2560オープンソースモデル - OCR不要でドキュメント画像をテキストに変換

ホーム

Donut Base Finetuned Cord V1 2560

naver-clova-ixによって開発

DonutはOCR不要のドキュメント理解Transformerモデルで、視覚エンコーダーとテキストデコーダーを組み合わせて画像からテキストへの変換を実現します。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #OCR不要のドキュメント解析 #視覚-テキスト変換 #Swin-BARTアーキテクチャ

ダウンロード数 30

リリース時間 : 7/19/2022

モデル概要

DonutモデルはSwin Transformerで画像をエンコードし、BARTデコーダーでテキストを生成する、ドキュメント解析タスク専用に設計されたモデルで、特にCORDデータセットでファインチューニングされています。

モデル特徴

OCR不要のドキュメント理解

画像入力を直接処理し、従来のOCR前処理ステップが不要

エンドツーエンドトレーニング

視覚エンコーダーとテキストデコーダーを共同でトレーニングし、画像からテキストへの直接変換を実現

効率的なアーキテクチャ

Swin Transformerの効率的な画像エンコーディングとBARTの強力なテキスト生成能力を組み合わせ

モデル能力

ドキュメント画像理解

画像からテキストへの変換

構造化情報抽出

使用事例

ドキュメント処理

レシート解析

レシート画像から店舗名、金額、日付などの構造化情報を抽出

CORDデータセットで優れた性能

フォーム認識

フォーム内のフィールドと内容を自動認識・抽出

🚀 Donut (ベースサイズのモデル、CORDでファインチューニング済み)

DonutモデルはCORDでファインチューニングされています。このモデルは、Geewokらによる論文 OCR-free Document Understanding Transformer で紹介され、最初はこのリポジトリで公開されました。

免責事項: Donutを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

📚 ドキュメント

モデルの説明

Donutはビジョンエンコーダ（Swin Transformer）とテキストデコーダ（BART）で構成されています。画像が与えられると、エンコーダはまず画像を埋め込みのテンソル（形状はbatch_size, seq_len, hidden_size）にエンコードし、その後デコーダはエンコーダのエンコード結果を条件としてテキストを自己回帰的に生成します。

モデル画像

想定される用途と制限

このモデルは、文書解析データセットであるCORDでファインチューニングされています。

コード例を含む詳細についてはドキュメントを参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2111-15664,
  author    = {Geewook Kim and
               Teakgyu Hong and
               Moonbin Yim and
               Jinyoung Park and
               Jinyeong Yim and
               Wonseok Hwang and
               Sangdoo Yun and
               Dongyoon Han and
               Seunghyun Park},
  title     = {Donut: Document Understanding Transformer without {OCR}},
  journal   = {CoRR},
  volume    = {abs/2111.15664},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.15664},
  eprinttype = {arXiv},
  eprint    = {2111.15664},
  timestamp = {Thu, 02 Dec 2021 10:50:44 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-15664.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}