layoutlmv2-base-uncased_finetuned_docvqa開源模型 - 精準解答文檔問題，助力文檔理解

首頁

Layoutlmv2 Base Uncased Finetuned Docvqa

由rogdevil開發

該模型是基於Microsoft LayoutLMv2架構的文檔視覺問答(VQA)專用模型，通過微調適應文檔理解任務

文本生成圖像

Transformers

#文檔問答 #多模態理解 #佈局感知

下載量 16

發布時間 : 2/29/2024

模型概述

專門用於處理文檔圖像中的視覺問答任務，能夠理解文檔佈局結構和文本內容的關聯性

模型特點

多模態理解能力

同時處理文檔文本內容和視覺佈局信息

文檔結構感知

能夠理解表格、表單等複雜文檔結構

高效微調

基於預訓練模型進行任務特定微調

模型能力

文檔圖像理解

視覺問答

文本定位

佈局分析

使用案例

文檔處理

表單信息提取

從掃描的表單文檔中自動提取關鍵信息

發票處理

識別發票中的金額、日期等關鍵字段

教育

試卷自動批改

識別學生答卷中的手寫或打印答案

🚀 layoutlmv2-base-uncased_finetuned_docvqa

該模型是 microsoft/layoutlmv2-base-uncased 在未知數據集上的微調版本。它在評估集上取得了以下結果：

損失值：4.6788

📚 詳細文檔

模型描述

更多信息待補充。

預期用途與限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

🔧 技術細節

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：5e-05
訓練批次大小：4
評估批次大小：8
隨機種子：42
優化器：Adam，β值為(0.9, 0.999)，ε值為1e-08
學習率調度器類型：線性
訓練輪數：20

訓練結果

訓練損失	輪數	步數	驗證損失
5.3193	0.22	50	4.5453
4.5115	0.44	100	4.1632
4.1316	0.66	150	3.8496
3.7911	0.88	200	3.7418
3.5175	1.11	250	3.9454
3.2171	1.33	300	3.0430
3.0377	1.55	350	3.1317
3.1081	1.77	400	2.8709
2.6219	1.99	450	2.9745
2.2922	2.21	500	3.0184
2.2245	2.43	550	2.6649
2.0918	2.65	600	2.3156
2.0339	2.88	650	2.4970
1.7088	3.1	700	2.2817
1.4584	3.32	750	2.3237
1.4296	3.54	800	2.1868
1.4413	3.76	850	2.2775
1.4055	3.98	900	2.6660
1.0251	4.2	950	2.6155
1.1251	4.42	1000	2.9841
1.059	4.65	1050	2.7376
1.0179	4.87	1100	3.7345
1.1128	5.09	1150	2.6704
0.8461	5.31	1200	3.0422
0.86	5.53	1250	3.2093
0.9124	5.75	1300	3.2782
0.8687	5.97	1350	3.1477
0.7039	6.19	1400	2.6896
0.8908	6.42	1450	3.0843
0.7408	6.64	1500	2.9585
0.6026	6.86	1550	3.3629
0.4852	7.08	1600	3.1505
0.5496	7.3	1650	3.6285
0.5578	7.52	1700	3.3481
0.5897	7.74	1750	3.3201
0.4487	7.96	1800	3.1462
0.2182	8.19	1850	3.7251
0.3524	8.41	1900	3.5870
0.4516	8.63	1950	3.6300
0.5658	8.85	2000	3.1085
0.4877	9.07	2050	3.5353
0.2226	9.29	2100	3.6744
0.2544	9.51	2150	4.1244
0.6194	9.73	2200	3.4775
0.3759	9.96	2250	3.7031
0.2718	10.18	2300	3.6076
0.1322	10.4	2350	3.6885
0.2596	10.62	2400	3.9328
0.1675	10.84	2450	4.1439
0.158	11.06	2500	4.4306
0.1462	11.28	2550	4.3744
0.2187	11.5	2600	4.4111
0.264	11.73	2650	3.9780
0.1997	11.95	2700	4.2383
0.1369	12.17	2750	4.1329
0.1204	12.39	2800	4.2738
0.2001	12.61	2850	4.0106
0.2132	12.83	2900	4.1816
0.1472	13.05	2950	4.4600
0.0603	13.27	3000	4.0050
0.0911	13.5	3050	4.1838
0.1016	13.72	3100	4.4429
0.0887	13.94	3150	4.1510
0.0495	14.16	3200	4.2938
0.0677	14.38	3250	4.6133
0.1263	14.6	3300	4.4634
0.1953	14.82	3350	3.9348
0.0212	15.04	3400	4.1726
0.0082	15.27	3450	4.3512
0.0432	15.49	3500	4.2992
0.0975	15.71	3550	4.2274
0.0933	15.93	3600	4.4028
0.024	16.15	3650	4.4662
0.0964	16.37	3700	4.3964
0.0487	16.59	3750	4.4827
0.0147	16.81	3800	4.5577
0.0951	17.04	3850	4.5640
0.0508	17.26	3900	4.4473
0.1163	17.48	3950	4.4565
0.0151	17.7	4000	4.5511
0.0569	17.92	4050	4.5298
0.0639	18.14	4100	4.5417
0.0155	18.36	4150	4.6398
0.0107	18.58	4200	4.7664
0.0044	18.81	4250	4.8119
0.0906	19.03	4300	4.7168
0.0533	19.25	4350	4.7032
0.0496	19.47	4400	4.6918
0.0938	19.69	4450	4.6824
0.0483	19.91	4500	4.6788