オープンソースCORD - v2モデル：donut - demoに使用し、画像を高速でテキストに変換し内容を抽出・識別することを無料で実現

ホーム

Donut Demo

zhongren2によって開発

CORD-v2は、画像からテキストを抽出・認識するタスク向けのモデルで、主に画像からテキストコンテンツを抽出するために使用されます。

文字認識

Transformers

オープンソースライセンス:MIT #ドキュメント画像からテキストへの変換 #高精度OCR #構造化データ抽出

ダウンロード数 20

リリース時間 : 9/18/2023

モデル概要

CORD-v2は、画像からテキストへの変換技術に基づくモデルで、画像からテキスト情報を正確に認識・抽出でき、文書解析や表認識など様々なシナリオに適用可能です。

モデル特徴

高精度テキスト認識

複雑な背景の画像からもテキストコンテンツを正確に認識・抽出できます。

多言語対応

複数言語のテキスト認識をサポートし、国際的なアプリケーションシナリオに適しています。

文書解析の最適化

文書や表のテキスト抽出能力を特に最適化し、オフィス自動化シナリオに適しています。

モデル能力

画像からテキストへの変換

文書解析

表認識

多言語テキスト認識

使用事例

オフィス自動化

文書のデジタル化

紙の文書を編集可能な電子テキストに変換

文書処理効率の向上、手入力エラーの削減

表データ抽出

スキャンした表から構造化データを抽出

データ入力プロセスの簡素化、データ処理速度の向上

金融サービス

領収書認識

領収書上の重要な情報を自動認識・抽出

財務処理プロセスの加速、手動審査時間の削減

属性	详情
パイプラインタグ	画像からテキストへの変換
評価指標	精度
訓練データ	naver-clova-ix/cord-v2

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Donut Demo

モデル概要

モデル特徴

モデル能力

使用事例

🚀 画像からテキストへの変換モデル

📦 インストール

💻 使用例

📚 ドキュメント

🔧 技術詳細

📄 ライセンス