TestDocumentQuestionAnsweringオープンソースドキュメントビジュアルQAモデル - 無料でデプロイし、ドキュメントの質問に正確に回答する

ホーム

Testdocumentquestionanswering

Dhineshkによって開発

LayoutLMv2アーキテクチャに基づく文書視覚質問応答モデルで、DocVQAタスク向けにファインチューニングされています

画像生成テキスト

Transformers

#文書視覚質問応答 #マルチモーダル理解 #レイアウト認識

ダウンロード数 16

リリース時間 : 9/27/2023

モデル概要

このモデルはLayoutLMv2基本版のファインチューニングバージョンで、文書視覚質問応答(DocVQA)タスクを処理するために特別に設計されており、文書のレイアウトとテキスト内容の関係を理解できます

モデル特徴

マルチモーダル理解能力

テキスト内容と視覚的レイアウト情報を組み合わせて文書を理解します

文書構造認識

文書内の表、段落などの構造化要素を識別できます

質問応答能力

文書内容に基づいてユーザーの質問に答えます

モデル能力

文書内容理解

視覚的質問応答

文書レイアウト分析

テキストと視覚情報の融合処理

使用事例

文書処理

契約書分析

契約条項に関する質問に自動回答します

表データ抽出

構造化文書から特定情報を抽出します

教育

答案自動採点

学生の答案内容を識別し、回答の正しさを評価します

🚀 layoutlmv2-base-uncased_finetuned_docvqa

このモデルは、microsoft/layoutlmv2-base-uncased を不明なデータセットでファインチューニングしたバージョンです。評価セットでは、以下の結果を達成しています。

損失: 5.3353

🚀 クイックスタート

このモデルは、特定のデータセットでファインチューニングされた microsoft/layoutlmv2-base-uncased のバージョンです。評価セットでは損失が5.3353となっています。

📚 ドキュメント

モデルの説明

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 5e-05
学習バッチサイズ: 4
評価バッチサイズ: 8
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: linear
エポック数: 20

学習結果

学習損失	エポック	ステップ	検証損失
0.153	0.22	50	5.3909
0.2793	0.44	100	5.0150
0.2634	0.66	150	4.6620
0.5192	0.88	200	4.7826
0.3096	1.11	250	4.9532
0.2638	1.33	300	5.2584
0.4727	1.55	350	4.0943
0.2763	1.77	400	4.8408
1.0425	1.99	450	5.0344
0.4477	2.21	500	4.9084
0.3266	2.43	550	5.0996
0.3085	2.65	600	4.4858
0.4648	2.88	650	4.0630
0.1845	3.1	700	5.3969
0.1616	3.32	750	4.8225
0.1752	3.54	800	5.2945
0.1877	3.76	850	5.2358
0.3172	3.98	900	5.2205
0.1627	4.2	950	4.9991
0.2548	4.42	1000	4.6917
0.1566	4.65	1050	5.1266
0.2616	4.87	1100	4.3241
0.1199	5.09	1150	4.9821
0.1372	5.31	1200	5.0838
0.1198	5.53	1250	5.0156
0.0558	5.75	1300	4.8638
0.1331	5.97	1350	4.9492
0.0689	6.19	1400	4.6926
0.0912	6.42	1450	4.5153
0.0495	6.64	1500	4.6969
0.0853	6.86	1550	4.7690
0.1072	7.08	1600	4.6783
0.034	7.3	1650	4.7351
0.2999	7.52	1700	4.5185
0.0763	7.74	1750	4.5825
0.0799	7.96	1800	4.7218
0.0343	8.19	1850	5.1508
0.0396	8.41	1900	5.4893
0.033	8.63	1950	5.5167
0.0295	8.85	2000	5.6252
0.2303	9.07	2050	4.7031
0.088	9.29	2100	4.7323
0.0666	9.51	2150	4.8688
0.0597	9.73	2200	5.6007
0.0615	9.96	2250	5.5403
0.1003	10.18	2300	5.3198
0.0457	10.4	2350	5.4828
0.0391	10.62	2400	5.5312
0.0325	10.84	2450	5.7410
0.0147	11.06	2500	5.8749
0.1013	11.28	2550	5.6522
0.001	11.5	2600	5.7776
0.0002	11.73	2650	5.8431
0.03	11.95	2700	5.9751
0.0452	12.17	2750	5.6928
0.0002	12.39	2800	5.6264
0.0109	12.61	2850	5.2688
0.0801	12.83	2900	5.2780
0.0216	13.05	2950	5.3691
0.0002	13.27	3000	5.5237
0.0092	13.5	3050	5.3662
0.0124	13.72	3100	5.4474
0.0515	13.94	3150	5.3623
0.0032	14.16	3200	5.4168
0.0051	14.38	3250	5.2897
0.0002	14.6	3300	5.3205
0.014	14.82	3350	5.2114
0.0004	15.04	3400	5.2342
0.0104	15.27	3450	5.2562
0.0107	15.49	3500	5.1112
0.0002	15.71	3550	5.1515
0.0002	15.93	3600	5.2054
0.0002	16.15	3650	5.1968
0.0003	16.37	3700	5.3196
0.0246	16.59	3750	5.3111
0.0054	16.81	3800	5.3335
0.0001	17.04	3850	5.3488
0.0243	17.26	3900	5.2597
0.0217	17.48	3950	5.2834
0.0002	17.7	4000	5.2947
0.0002	17.92	4050	5.3131
0.0001	18.14	4100	5.3240
0.0016	18.36	4150	5.3129
0.0133	18.58	4200	5.3241
0.0002	18.81	4250	5.3382
0.0159	19.03	4300	5.3764
0.003	19.25	4350	5.3776
0.0516	19.47	4400	5.3389
0.016	19.69	4450	5.3275
0.0105	19.91	4500	5.3353