layoutlmv3-base-mpdocvqaオープンソースモデル - 多ページドキュメントのビジュアル質問応答機能の無料デプロイを実現

ホーム

Layoutlmv3 Base Mpdocvqa

rubentitoによって開発

このモデルは、マイクロソフトのLayoutLMv3事前学習モデルを基に、マルチページドキュメントQA（MP-DocVQA）データセットでファインチューニングされたドキュメント視覚QAモデルです。

テキスト生成画像

Transformers

英語#マルチページドキュメントQA #視覚的テキスト理解 #ドキュメントインテリジェンス

ダウンロード数 664

リリース時間 : 2/21/2023

モデル概要

このモデルはドキュメント視覚QAタスク専用に設計されており、マルチページドキュメント内のQAニーズを処理し、テキストと視覚情報を統合して回答を予測できます。

モデル特徴

マルチモーダル処理能力

テキストと視覚情報を統合したドキュメント理解が可能で、複雑なドキュメント視覚QAタスクに適しています。

マルチページドキュメント対応

マルチページドキュメント内のQAニーズを処理し、回答が存在するページを予測できます。

効率的な性能

125Mパラメータ規模で優れたドキュメントQA性能を実現しています。

モデル能力

ドキュメント視覚QA

マルチページドキュメント処理

テキストと視覚情報の融合

使用事例

ドキュメント処理

契約書ドキュメントQA

マルチページ契約書から特定条項情報を抽出

ANLS 0.4538, APPA 51.9426

レポートドキュメント分析

マルチページレポート内の主要データを分析

🚀 LayoutLMv3 baseをMP-DocVQAでファインチューニングしたモデル

このモデルは、Microsoft hub の事前学習済みLayoutLMv3を、Multipage DocVQA (MP-DocVQA) データセットでファインチューニングしたものです。

このモデルは、Hierarchical multimodal transformers for Multi-Page DocVQA でベースラインとして使用されました。

MP-DocVQAデータセットでの結果は表2に報告されています。
学習のハイパーパラメータは付録Dの表8に記載されています。

🚀 クイックスタート

このモデルは、Microsoft hub の事前学習済みLayoutLMv3を、Multipage DocVQA (MP-DocVQA) データセットでファインチューニングしたものです。

このモデルは、Hierarchical multimodal transformers for Multi-Page DocVQA でベースラインとして使用されました。

💻 使用例

基本的な使用法

import torch
from transformers import LayoutLMv3Processor, LayoutLMv3ForQuestionAnswering

processor = LayoutLMv3Processor.from_pretrained("rubentito/layoutlmv3-base-mpdocvqa", apply_ocr=False)
model = LayoutLMv3ForQuestionAnswering.from_pretrained("rubentito/layoutlmv3-base-mpdocvqa")

image = Image.open("example.jpg").convert("RGB")
question = "Is this a question?"
context = ["Example"]
boxes = [0, 0, 1000, 1000]  # This is an example bounding box covering the whole image.
document_encoding = processor(image, question, context, boxes=boxes, return_tensors="pt")
outputs = model(**document_encoding)

# Get the answer
start_idx = torch.argmax(outputs.start_logits, axis=1)
end_idx = torch.argmax(outputs.end_logits, axis=1)
answers = self.processor.tokenizer.decode(input_tokens[start_idx: end_idx+1]).strip()

📚 ドキュメント

指標

平均正規化レーベンシュタイン類似度 (ANLS)

テキストベースのVQAタスク (ST-VQAおよびDocVQA) の標準的な指標です。この指標は、手法の推論能力を評価し、OCR認識エラーに対してスムーズにペナルティを与えます。詳細については、Scene Text Visual Question Answering を参照してください。

回答ページ予測精度 (APPA)

MP-DocVQAタスクでは、モデルは質問に対する回答に必要な情報があるページのインデックスを提供できます。このサブタスクでは、予測の精度 (すなわち、予測されたページが正しいかどうか) が評価に使用されます。詳細については、Hierarchical multimodal transformers for Multi-Page DocVQA を参照してください。

モデルの結果

拡張実験の結果は、Hierarchical multimodal transformers for Multi-Page DocVQA の表2に記載されています。また、RRC Portal でライブのリーダーボードを確認することもできます。

モデル	HF名	パラメータ数	ANLS	APPA
Bert large	rubentito/bert-large-mpdocvqa	334M	0.4183	51.6177
Longformer base	rubentito/longformer-base-mpdocvqa	148M	0.5287	71.1696
BigBird ITC base	rubentito/bigbird-base-itc-mpdocvqa	131M	0.4929	67.5433
LayoutLMv3 base	rubentito/layoutlmv3-base-mpdocvqa	125M	0.4538	51.9426
T5 base	rubentito/t5-base-mpdocvqa	223M	0.5050	0.0000
Hi-VT5	rubentito/hivt5-base-mpdocvqa	316M	0.6201	79.23

引用情報

@article{tito2022hierarchical,
  title={Hierarchical multimodal transformers for Multi-Page DocVQA},
  author={Tito, Rub{\`e}n and Karatzas, Dimosthenis and Valveny, Ernest},
  journal={arXiv preprint arXiv:2212.05935},
  year={2022}
}

情報テーブル

| 属性 | 详情 |
|------|------|
| モデルタイプ | LayoutLMv3 baseをMP-DocVQAでファインチューニングしたモデル |
| 学習データセット | rubentito/mp-docvqa |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご