donut-baseオープンソース文書理解モデル - OCR不要で文書内容を素早く理解

ホーム

Donut Base

naver-clova-ixによって開発

DonutはOCRを必要としない文書理解Transformerモデルで、視覚エンコーダー(Swin Transformer)とテキストデコーダー(BART)で構成されています。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #OCR不要の文書理解 #視覚-テキスト変換 #Swin-BARTアーキテクチャ

ダウンロード数 50.34k

リリース時間 : 7/19/2022

モデル概要

このモデルはDonutの純粋な事前学習バージョンで、下流タスクで微調整が必要です。従来のOCRステップなしで直接画像から文書内容を理解できます。

モデル特徴

OCR処理不要

直接画像入力を処理し、従来のOCRプロセスの誤差蓄積問題を回避

エンドツーエンド学習

視覚エンコーダーとテキストデコーダーを共同訓練し、エンドツーエンドの文書理解を実現

柔軟な下流応用

微調整により分類、解析など多様な文書理解タスクに適応可能

モデル能力

画像からテキストへ変換

文書理解

視覚特徴抽出

テキスト生成

使用事例

文書処理

文書画像分類

スキャンした文書画像を分類

文書解析

文書画像から構造化情報を抽出

🚀 Donut (ベースサイズのモデル、事前学習のみ)

このDonutモデルは事前学習のみ行われたものです。このモデルは、Geewokらによる論文 OCR-free Document Understanding Transformer で紹介され、このリポジトリで最初に公開されました。

免責事項: Donutを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Donutは、ビジョンエンコーダ（Swin Transformer）とテキストデコーダ（BART）で構成されています。画像が与えられると、エンコーダはまず画像を埋め込みのテンソル（形状はbatch_size, seq_len, hidden_size）にエンコードし、その後デコーダはエンコーダのエンコーディングを条件として、自己回帰的にテキストを生成します。

モデル画像

想定される用途と制限

このモデルは、文書画像分類や文書解析などの下流タスクでファインチューニングすることを想定しています。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例を含むドキュメントを参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2111-15664,
  author    = {Geewook Kim and
               Teakgyu Hong and
               Moonbin Yim and
               Jinyoung Park and
               Jinyeong Yim and
               Wonseok Hwang and
               Sangdoo Yun and
               Dongyoon Han and
               Seunghyun Park},
  title     = {Donut: Document Understanding Transformer without {OCR}},
  journal   = {CoRR},
  volume    = {abs/2111.15664},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.15664},
  eprinttype = {arXiv},
  eprint    = {2111.15664},
  timestamp = {Thu, 02 Dec 2021 10:50:44 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-15664.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}