オープンソースDonutモデルがuae-license-detectionをサポート - OCR不要でドキュメント画像を簡単に処理

ホーム

Uae License Detection

codedrainerによって開発

DonutはOCR不要のドキュメント理解Transformerモデルで、視覚エンコーダーとテキストデコーダーを組み合わせてドキュメント画像を処理します

画像生成テキスト

Transformers

オープンソースライセンス:MIT #ドキュメント画像理解 #OCRなしテキスト抽出 #Swin-BARTアーキテクチャ

ダウンロード数 21

リリース時間 : 7/22/2023

モデル概要

Swin Transformer視覚エンコーダーとBARTテキストデコーダーを基にしたドキュメント理解モデルで、OCR前処理なしで画像から直接テキストを生成可能

モデル特徴

OCR処理不要

従来のOCR前処理ステップなしで直接ドキュメント画像を処理

エンドツーエンド学習

視覚エンコーダーとテキストデコーダーを共同で訓練し、エンドツーエンドのドキュメント理解を実現

マルチモーダルアーキテクチャ

Swin Transformerの視覚処理能力とBARTのテキスト生成能力を統合

モデル能力

ドキュメント画像分類

画像からテキストへの変換

ドキュメント内容理解

使用事例

ドキュメント処理

ドキュメント分類

スキャンしたドキュメントの種類を自動分類（請求書、契約書など）

ドキュメント内容抽出

ドキュメント画像から構造化テキスト情報を抽出

🚀 Donut (ベースサイズのモデル、RVL - CDIPでファインチューニング済み)

DonutモデルはRVL - CDIPでファインチューニングされています。このモデルは、Geewokらによる論文 OCR-free Document Understanding Transformer で紹介され、最初はこのリポジトリで公開されました。

免責事項: Donutを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

Donutモデルは、RVL - CDIPデータセットでファインチューニングされたドキュメント理解モデルです。画像を入力として受け取り、テキストを生成することができます。

✨ 主な機能

画像を入力として受け取り、テキストを生成することができます。
OCRを使用せずにドキュメントを理解することができます。

📚 ドキュメント

モデルの説明

Donutは、ビジョンエンコーダ（Swin Transformer）とテキストデコーダ（BART）で構成されています。画像が与えられると、エンコーダはまず画像を埋め込みのテンソル（形状はbatch_size, seq_len, hidden_size）にエンコードし、その後デコーダはエンコーダのエンコーディングを条件として、自己回帰的にテキストを生成します。

モデル画像

想定される用途と制限

このモデルは、ドキュメント画像分類データセットであるRVL - CDIPでファインチューニングされています。

コード例を含む詳細なドキュメントはこちらを参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2111-15664,
  author    = {Geewook Kim and
               Teakgyu Hong and
               Moonbin Yim and
               Jinyoung Park and
               Jinyeong Yim and
               Wonseok Hwang and
               Sangdoo Yun and
               Dongyoon Han and
               Seunghyun Park},
  title     = {Donut: Document Understanding Transformer without {OCR}},
  journal   = {CoRR},
  volume    = {abs/2111.15664},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.15664},
  eprinttype = {arXiv},
  eprint    = {2111.15664},
  timestamp = {Thu, 02 Dec 2021 10:50:44 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-15664.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}