Layoutlmv2 Base Uncased Finetuned Docvqa

L

Layoutlmv2 Base Uncased Finetuned Docvqa

由madiltalay開發

基於LayoutLMv2架構的文檔視覺問答模型，專為文檔理解任務微調

文本生成圖像

#文檔視覺問答 #多模態理解 #佈局感知

下載量 14

發布時間 : 6/22/2023

模型概述

該模型是LayoutLMv2基礎版在DocVQA任務上的微調版本，能夠理解文檔佈局和文本內容，回答關於文檔的問題。

模型特點

多模態理解能力

同時處理文本內容和文檔佈局信息

文檔專用優化

針對文檔視覺問答任務進行專門微調

端到端訓練

直接從原始文檔圖像學習文本和視覺特徵

模型能力

文檔理解

視覺問答

文本定位

佈局分析

使用案例

文檔處理

表單信息提取

從結構化文檔中提取特定字段信息

文檔問答系統

回答用戶關於文檔內容的自然語言問題

企業自動化

發票處理

自動識別和提取發票中的關鍵信息

🚀 layoutlmv2-base-uncased_finetuned_docvqa

此模型是 microsoft/layoutlmv2-base-uncased 在 None 數據集上的微調版本。它在評估集上取得了以下結果：

損失值：3.6030

🚀 快速開始

本模型是預訓練模型微調後的版本，可直接用於相關任務。你可以根據需求進一步調整參數或進行二次微調。

📄 許可證

本模型採用 CC BY-NC-SA 4.0 許可證。

🔧 技術細節

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e - 05
訓練批次大小：4
評估批次大小：8
隨機種子：42
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
訓練輪數：10

訓練結果

訓練損失	輪數	步數	驗證損失
5.326	0.22	50	4.4949
4.292	0.44	100	3.9510
3.9419	0.66	150	3.9100
3.6895	0.88	200	3.5035
3.4052	1.11	250	3.4030
3.1405	1.33	300	3.2100
2.8966	1.55	350	2.9803
2.7874	1.77	400	2.7811
2.5385	1.99	450	2.4748
2.1532	2.21	500	2.5843
1.994	2.43	550	2.5459
1.8322	2.65	600	2.2316
1.7005	2.88	650	2.1888
1.4758	3.1	700	2.4578
1.3543	3.32	750	2.3368
1.1939	3.54	800	2.9737
1.294	3.76	850	2.4907
1.4519	3.98	900	1.9276
1.0517	4.2	950	2.9981
0.8171	4.42	1000	2.5618
1.0456	4.65	1050	2.3139
0.9222	4.87	1100	2.4243
0.758	5.09	1150	2.8167
0.7203	5.31	1200	2.9342
0.6748	5.53	1250	2.6396
0.6821	5.75	1300	2.5629
0.5898	5.97	1350	3.0276
0.3135	6.19	1400	3.2611
0.4407	6.42	1450	3.1793
0.5303	6.64	1500	3.0511
0.5294	6.86	1550	3.1106
0.3149	7.08	1600	3.2933
0.199	7.3	1650	3.4207
0.164	7.52	1700	3.4379
0.5258	7.74	1750	3.1339
0.336	7.96	1800	3.2394
0.3294	8.19	1850	3.0956
0.1587	8.41	1900	3.4282
0.2375	8.63	1950	3.3718
0.117	8.85	2000	3.5646
0.2873	9.07	2050	3.5213
0.2206	9.29	2100	3.5387
0.2503	9.51	2150	3.5683
0.0763	9.73	2200	3.6119
0.1344	9.96	2250	3.6030

框架版本

Transformers 4.30.2
Pytorch 2.0.1 + cu118
Datasets 2.13.1
Tokenizers 0.13.3

信息表格

屬性	詳情
模型類型	layoutlmv2-base-uncased 微調版本
訓練數據	None 數據集

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase