L

Layoutlmv2 Base Uncased Finetuned Docvqa

rogdevilによって開発
このモデルはMicrosoft LayoutLMv2アーキテクチャに基づくドキュメント視覚質問応答(VQA)専用モデルで、ドキュメント理解タスクに適応するようにファインチューニングされています
ダウンロード数 16
リリース時間 : 2/29/2024

モデル概要

ドキュメント画像内の視覚質問応答タスクを処理するために特別に設計されており、ドキュメントのレイアウト構造とテキスト内容の関連性を理解できます

モデル特徴

マルチモーダル理解能力
ドキュメントのテキスト内容と視覚的レイアウト情報を同時に処理
ドキュメント構造認識
表やフォームなどの複雑なドキュメント構造を理解可能
効率的なファインチューニング
事前学習済みモデルに基づくタスク固有のファインチューニング

モデル能力

ドキュメント画像理解
視覚質問応答
テキスト位置特定
レイアウト分析

使用事例

ドキュメント処理
フォーム情報抽出
スキャンされたフォームドキュメントから自動的にキー情報を抽出
請求書処理
請求書内の金額、日付などのキーフィールドを認識
教育
答案自動採点
学生の答案用紙に書かれた手書きまたは印刷された回答を認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase