L

Layoutlmv3 Base Mpdocvqa

rubentitoによって開発
このモデルは、マイクロソフトのLayoutLMv3事前学習モデルを基に、マルチページドキュメントQA(MP-DocVQA)データセットでファインチューニングされたドキュメント視覚QAモデルです。
ダウンロード数 664
リリース時間 : 2/21/2023

モデル概要

このモデルはドキュメント視覚QAタスク専用に設計されており、マルチページドキュメント内のQAニーズを処理し、テキストと視覚情報を統合して回答を予測できます。

モデル特徴

マルチモーダル処理能力
テキストと視覚情報を統合したドキュメント理解が可能で、複雑なドキュメント視覚QAタスクに適しています。
マルチページドキュメント対応
マルチページドキュメント内のQAニーズを処理し、回答が存在するページを予測できます。
効率的な性能
125Mパラメータ規模で優れたドキュメントQA性能を実現しています。

モデル能力

ドキュメント視覚QA
マルチページドキュメント処理
テキストと視覚情報の融合

使用事例

ドキュメント処理
契約書ドキュメントQA
マルチページ契約書から特定条項情報を抽出
ANLS 0.4538, APPA 51.9426
レポートドキュメント分析
マルチページレポート内の主要データを分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase