D

Donut Base Finetuned Rvlcdip

naver-clova-ixによって開発
DonutはOCRを必要としないドキュメント理解Transformerモデルで、ビジュアルエンコーダーとテキストデコーダーを組み合わせてドキュメント画像を処理します。
ダウンロード数 125.36k
リリース時間 : 7/19/2022

モデル概要

DonutはSwin TransformerビジュアルエンコーダーとBARTテキストデコーダーで構成され、従来のOCRステップなしで画像から直接テキストを生成できます。このバージョンはRVL-CDIPデータセットでファインチューニングされたドキュメント分類モデルです。

モデル特徴

OCR不要のドキュメント理解
従来のOCR前処理ステップなしで直接画像入力を処理
エンドツーエンドトレーニング
ビジュアルエンコーダーとテキストデコーダーを共同でトレーニングし、エンドツーエンドのドキュメント理解を実現
Swin Transformerアーキテクチャ
高効率なSwin Transformerをビジュアルエンコーダーとして採用し、高解像度画像を処理

モデル能力

ドキュメント画像分類
画像からテキストへの変換
視覚的ドキュメント理解

使用事例

ドキュメント処理
ドキュメント分類
スキャンしたドキュメントの種類(請求書、契約書など)を自動分類
RVL-CDIPデータセットで良好なパフォーマンス
ドキュメント情報抽出
構造化ドキュメントからキー情報を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase