開源layoutlmv2-large-uncased-finetuned-infovqa模型

首頁

Layoutlmv2 Large Uncased Finetuned Infovqa

由tiennvcs開發

基於LayoutLMv2架構的文檔理解模型，針對InfoVQA任務進行微調

問答系統

Transformers

#文檔視覺問答 #多模態理解 #表單信息提取

下載量 16

發布時間 : 3/2/2022

模型概述

該模型是基於LayoutLMv2架構的文檔理解模型，專門針對信息視覺問答(InfoVQA)任務進行了微調。能夠處理包含文本和佈局信息的文檔，回答與文檔內容相關的問題。

模型特點

多模態理解

能夠同時處理文本內容和視覺佈局信息

文檔問答

專門針對文檔信息問答任務進行優化

大規模預訓練

基於大型LayoutLMv2模型微調，具有強大的文檔理解能力

模型能力

文檔理解

視覺問答

文本佈局分析

信息提取

使用案例

文檔處理

表單信息提取

從結構化文檔中提取特定信息並回答問題

文檔內容問答

根據文檔內容回答用戶提出的問題

🚀 layoutlmv2-large-uncased-finetuned-infovqa

該模型是 microsoft/layoutlmv2-large-uncased 在未知數據集上的微調版本。它在評估集上取得了以下結果：

損失值：2.2207

🚀 快速開始

此模型為預訓練模型，可直接使用或基於此進行進一步的微調。以下是使用該模型的基本步驟：

安裝必要的庫：

pip install transformers datasets torch

加載模型：

from transformers import AutoModelForQuestionAnswering, AutoTokenizer

model = AutoModelForQuestionAnswering.from_pretrained("layoutlmv2-large-uncased-finetuned-infovqa")
tokenizer = AutoTokenizer.from_pretrained("layoutlmv2-large-uncased-finetuned-infovqa")

📚 詳細文檔

模型描述

該模型是基於 microsoft/layoutlmv2-large-uncased 進行微調得到的，但具體微調所用的數據集未知。

預期用途與限制

文檔未提供該模型的預期用途和限制的具體信息。

訓練和評估數據

文檔未提供訓練和評估數據的具體信息。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e-05
訓練批次大小：2
評估批次大小：2
隨機種子：250500
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
訓練輪數：2

訓練結果

訓練損失	輪數	步數	驗證損失
4.1829	0.08	500	3.6339
3.5002	0.16	1000	3.0721
2.9556	0.24	1500	2.8731
2.8939	0.33	2000	3.1566
2.6986	0.41	2500	3.1023
2.7569	0.49	3000	2.7743
2.6391	0.57	3500	2.5023
2.4277	0.65	4000	2.5465
2.4242	0.73	4500	2.4709
2.3978	0.82	5000	2.4019
2.2653	0.9	5500	2.3383
2.3916	0.98	6000	2.4765
1.9423	1.06	6500	2.3798
1.8538	1.14	7000	2.3628
1.8136	1.22	7500	2.3671
1.7808	1.31	8000	2.5585
1.7772	1.39	8500	2.5862
1.755	1.47	9000	2.3105
1.6529	1.55	9500	2.2417
1.6956	1.63	10000	2.1755
1.5713	1.71	10500	2.2917
1.565	1.79	11000	2.0838
1.615	1.88	11500	2.2111
1.5249	1.96	12000	2.2207