donut-demoオープンソース画像からテキストへの変換モデル - CORD-v2に基づく微調整、精度が0.901に達する！

ホーム

Donut Demo

katanamlによって開発

これはCORD-v2データセットでファインチューニングされたDonutモデルで、画像からテキストへの変換タスク向けに設計されており、平均精度は0.901です。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #高精度OCR #ドキュメント理解 #レシート認識

ダウンロード数 24

リリース時間 : 1/18/2023

モデル概要

このモデルは主に画像からテキスト情報を抽出するために使用され、特にドキュメント画像の認識と処理タスクに適しています。

モデル特徴

高精度

CORD-v2データセットで0.901の平均精度を達成

ドキュメント画像処理

ドキュメント画像からのテキスト抽出に特化して最適化

Donutアーキテクチャベース

先進的なDonutモデルアーキテクチャを利用した画像からテキストへの変換

モデル能力

ドキュメント画像認識

テキスト抽出

画像からテキストへ

使用事例

ドキュメント処理

レシート認識

レシート画像から構造化されたテキスト情報を抽出

精度0.901

表抽出

ドキュメント画像から表の内容を認識・抽出

データ入力自動化

自動フォーム処理

紙のフォームをデジタルデータに変換

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Donut Demo

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Donutモデル（CORDデータセットでファインチューニング済み）

🚀 クイックスタート

📄 ライセンス

📚 ドキュメント

データセット

評価指標

関連リンク