donut-base-finetuned-docvqaオープンソースモデル - OCR不要で画像から直接テキスト情報を抽出・理解

Home

Donut Base Finetuned Docvqa

Developed by naver-clova-ix

DonutはOCRを必要としない文書理解Transformerモデルで、DocVQAデータセットでファインチューニングされており、画像から直接テキスト情報を抽出・理解できます。

画像生成テキスト

Transformers

Open Source License:MIT #文書視覚質問応答 #OCRなしテキスト抽出 #Swin-BARTアーキテクチャ

Downloads 167.80k

Release Time : 7/19/2022

Model Overview

このモデルは視覚エンコーダー(Swin Transformer)とテキストデコーダー(BART)で構成され、従来のOCR前処理ステップなしで文書画像から直接テキスト回答を生成できます。

Model Features

OCR処理不要

文書画像を直接処理し、従来のOCRプロセスでのエラー蓄積問題を回避

エンドツーエンド学習

視覚エンコーダーとテキストデコーダーを共同訓練し、画像からテキストへの直接変換を実現

文書理解能力

請求書、契約書などの構造化文書内容を理解できるよう文書画像に最適化

Model Capabilities

文書画像理解

視覚質問応答

テキスト情報抽出

画像からテキストへの変換

Use Cases

文書処理

請求書情報抽出

請求書画像から番号、金額などのキー情報を抽出

構造化文書内の特定フィールドを正確に識別可能

契約条項照会

契約文書内容に関する特定の質問に回答

契約文書の重要な条項内容を理解可能

🚀 Donut (ベースサイズのモデル、DocVQAでファインチューニング済み)

Donutは、DocVQAでファインチューニングされたモデルです。このモデルは、Geewokらによる論文 OCR-free Document Understanding Transformer で紹介され、このリポジトリで最初に公開されました。

免責事項: Donutを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは、文書の視覚的質問応答データセットであるDocVQAでファインチューニングされています。コード例を含む詳細なドキュメントについては、こちらを参照してください。

✨ 主な機能

Donutは、ビジョンエンコーダ（Swin Transformer）とテキストデコーダ（BART）で構成されています。画像が与えられると、エンコーダはまず画像を埋め込みのテンソル（形状はbatch_size, seq_len, hidden_size）にエンコードし、その後デコーダはエンコーダのエンコーディングを条件として、自己回帰的にテキストを生成します。

モデル画像

📚 ドキュメント

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2111-15664,
  author    = {Geewook Kim and
               Teakgyu Hong and
               Moonbin Yim and
               Jinyoung Park and
               Jinyeong Yim and
               Wonseok Hwang and
               Sangdoo Yun and
               Dongyoon Han and
               Seunghyun Park},
  title     = {Donut: Document Understanding Transformer without {OCR}},
  journal   = {CoRR},
  volume    = {abs/2111.15664},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.15664},
  eprinttype = {arXiv},
  eprint    = {2111.15664},
  timestamp = {Thu, 02 Dec 2021 10:50:44 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-15664.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}