D

Donut Base Finetuned Docvqa

Developed by naver-clova-ix
DonutはOCRを必要としない文書理解Transformerモデルで、DocVQAデータセットでファインチューニングされており、画像から直接テキスト情報を抽出・理解できます。
Downloads 167.80k
Release Time : 7/19/2022

Model Overview

このモデルは視覚エンコーダー(Swin Transformer)とテキストデコーダー(BART)で構成され、従来のOCR前処理ステップなしで文書画像から直接テキスト回答を生成できます。

Model Features

OCR処理不要
文書画像を直接処理し、従来のOCRプロセスでのエラー蓄積問題を回避
エンドツーエンド学習
視覚エンコーダーとテキストデコーダーを共同訓練し、画像からテキストへの直接変換を実現
文書理解能力
請求書、契約書などの構造化文書内容を理解できるよう文書画像に最適化

Model Capabilities

文書画像理解
視覚質問応答
テキスト情報抽出
画像からテキストへの変換

Use Cases

文書処理
請求書情報抽出
請求書画像から番号、金額などのキー情報を抽出
構造化文書内の特定フィールドを正確に識別可能
契約条項照会
契約文書内容に関する特定の質問に回答
契約文書の重要な条項内容を理解可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase