donut-base-finetuned-zhtrainticketオープンソースモデル - OCR処理不要で、ドキュメント画像をテキストに変換

ホーム

Donut Base Finetuned Zhtrainticket

naver-clova-ixによって開発

ZhTrainTicketでファインチューニングされたDonutモデルで、OCR処理不要でドキュメント画像からテキストへ変換します。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #OCR不要のドキュメント解析 #切符情報抽出 #Swin-BARTアーキテクチャ

ダウンロード数 362

リリース時間 : 7/19/2022

モデル概要

DonutはSwin TransformerエンコーダーとBARTデコーダーで構成される視覚-言語モデルで、画像から直接テキスト情報を抽出できます。

モデル特徴

OCR処理不要

視覚エンコーダーで直接ドキュメント画像を理解し、従来のOCR前処理ステップが不要

エンドツーエンド訓練

視覚エンコーダーテキストデコーダーを共同訓練し、エンドツーエンドのドキュメント理解を実現

中国語領収書認識

中国語の切符などに特化してファインチューニング

モデル能力

ドキュメント画像理解

視覚テキスト抽出

領収書情報認識

使用事例

領収書処理

切符情報抽出

中国語の切符画像から列車番号、日付、料金などの情報を自動抽出

ドキュメントデジタル化

ドキュメント内容抽出

スキャンしたドキュメントを構造化テキストデータに変換

🚀 Donut (基本サイズのモデル、ZhTrainTicketでファインチューニング済み)

ZhTrainTicketでファインチューニングされたDonutモデルです。このモデルは、Geewokらによる論文 OCR-free Document Understanding Transformer で紹介され、このリポジトリで最初に公開されました。

免責事項: Donutを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このセクションでは、Donutモデルの概要と使い方について説明します。

✨ 主な機能

Donutモデルは、画像から直接テキストを生成することができるOCRフリーのドキュメント理解Transformerです。具体的には、以下のような特徴があります。

ビジョンエンコーダ（Swin Transformer）とテキストデコーダ（BART）から構成されています。
画像を入力として受け取り、エンコーダが画像を埋め込みのテンソルにエンコードした後、デコーダがテキストを自己回帰的に生成します。

📚 ドキュメント

モデルの説明

Donutは、ビジョンエンコーダ（Swin Transformer）とテキストデコーダ（BART）から構成されています。画像が与えられると、エンコーダはまず画像を埋め込みのテンソル（形状はbatch_size, seq_len, hidden_size）にエンコードし、その後デコーダがエンコーダのエンコーディングに基づいてテキストを自己回帰的に生成します。

モデル画像

想定される用途と制限

このモデルは、ドキュメント解析データセットであるZhTrainTicketでファインチューニングされています。

コード例を含む詳細なドキュメントについては、こちらを参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2111-15664,
  author    = {Geewook Kim and
               Teakgyu Hong and
               Moonbin Yim and
               Jinyoung Park and
               Jinyeong Yim and
               Wonseok Hwang and
               Sangdoo Yun and
               Dongyoon Han and
               Seunghyun Park},
  title     = {Donut: Document Understanding Transformer without {OCR}},
  journal   = {CoRR},
  volume    = {abs/2111.15664},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.15664},
  eprinttype = {arXiv},
  eprint    = {2111.15664},
  timestamp = {Thu, 02 Dec 2021 10:50:44 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-15664.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}