L

Layoutlmv2 Base Uncased Finetuned Docvqa

hugginglaodaによって開発
LayoutLMv2アーキテクチャに基づくドキュメント視覚質問応答モデルで、ドキュメント理解タスク向けに特別にファインチューニングされています
ダウンロード数 16
リリース時間 : 4/1/2023

モデル概要

このモデルはLayoutLMv2基本版をドキュメント視覚質問応答(DocVQA)タスク向けにファインチューニングしたバージョンで、ドキュメントのレイアウトと内容を理解し、ドキュメントに関連する質問に答えることができます

モデル特徴

マルチモーダル理解能力
テキスト内容と視覚的レイアウト情報を組み合わせてドキュメントを理解します
ドキュメント構造認識
ドキュメント内の表や段落などの構造情報を認識して利用できます
エンドツーエンド質問応答
中間OCRステップなしで、ドキュメント画像から直接情報を抽出して質問に答えます

モデル能力

ドキュメント視覚質問応答
ドキュメント理解
レイアウト分析
テキスト位置特定

使用事例

ドキュメント処理
フォーム情報抽出
スキャンされたフォームから特定のフィールド情報を抽出します
契約書分析
契約条項に関する具体的な質問に答えます
教育
答案自動採点
スキャンされた答案に基づいて採点関連の質問に答えます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase