donut-base-finetuned-docvqaオープンソースドキュメント質疑応答モデル - 画像からテキスト情報を抽出し、正確に質問に答える

ホーム

Donut Base Finetuned Docvqa

Xenovaによって開発

Donutアーキテクチャに基づくドキュメントQAモデルで、画像からテキスト情報を抽出し質問に答えることができます

画像生成テキスト

Transformers

#ドキュメント視覚QA #画像からテキストへの解析 #請求書情報抽出

ダウンロード数 114

リリース時間 : 9/5/2023

モデル概要

このモデルはDonutアーキテクチャのバリエーションで、ドキュメントQAタスクに特化してファインチューニングされており、請求書や領収書などのテキストを含む画像を処理し関連する質問に答えることができます。

モデル特徴

画像からテキストへの理解

OCR前処理なしで直接画像からテキスト内容を認識し理解できます

エンドツーエンドドキュメントQA

画像入力を直接処理しテキスト回答を生成することで、ドキュメント理解プロセスを簡素化します

ウェブ対応

ONNX形式の重みを提供し、ブラウザ環境での展開が容易です

モデル能力

画像テキスト認識

ドキュメント内容理解

構造化情報抽出

視覚QA

使用事例

ドキュメント処理

請求書情報抽出

請求書画像から請求書番号、日付、金額などのキー情報を抽出します

出力例: [{ answer: 'us-001' }]

領収書分析

領収書内の商品リストと合計金額を識別します

フォーム処理

表データ抽出

スキャンした表ドキュメントから構造化データを抽出します

属性	详情
ベースモデル	naver-clova-ix/donut-base-finetuned-docvqa
ライブラリ名	transformers.js
パイプラインタグ	document-question-answering
タグ	donut、image-to-text、vision、donut-swin

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Donut Base Finetuned Docvqa

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ドキュメント質問応答モデル

🚀 クイックスタート

📦 インストール

💻 使用例

基本的な使用法

情報一覧

注意事項