OCR-LayoutLMv3-Invoice开源发票识别模型 - 精准提取发票结构化信息

首页

OCR LayoutLMv3 Invoice

由 jinhybr 开发

基于LayoutLMv3-base微调的发票识别模型，在wild_receipt数据集上训练，擅长从发票中提取结构化信息。

序列标注

Transformers

#发票信息抽取 #高精度OCR #结构化识别

下载量 340

发布时间 : 11/7/2022

模型简介

该模型是针对发票文本识别优化的OCR模型，能够准确识别和分类发票中的各类信息字段。

模型特点

高精度发票识别

在wild_receipt数据集上达到87.65%的精确率和88.12%的召回率

基于LayoutLMv3架构

利用先进的视觉-语言预训练模型，结合文本和布局信息进行识别

端到端训练

直接从原始发票图像中学习文本和布局特征

模型能力

发票文本识别

结构化信息提取

票据字段分类

使用案例

财务自动化

发票信息提取

自动从各类发票中提取关键信息如金额、日期、商家等

准确率92.68%，F1值87.89%

企业报销

报销单处理

自动识别和分类报销单据中的各项费用

🚀 OCR-LayoutLMv3-Invoice

本模型是基于 microsoft/layoutlmv3-base 在 wild_receipt 数据集上微调得到的版本。它在评估集上取得了以下结果：

损失值（Loss）：0.3159
精确率（Precision）：0.8765
召回率（Recall）：0.8812
F1值（F1）：0.8789
准确率（Accuracy）：0.9268

📚 详细文档

模型信息

属性	详情
模型名称	OCR-LayoutLMv3-Invoice
生成标签	generated_from_trainer
数据集	wild_receipt
评估指标	精确率（Precision）、召回率（Recall）、F1值（F1）、准确率（Accuracy）

模型评估结果

任务名称	任务类型	数据集名称	数据集类型	数据集配置	数据集划分	数据集参数	精确率	召回率	F1值	准确率
标记分类（Token Classification）	标记分类（token-classification）	wild_receipt	wild_receipt	WildReceipt	train	WildReceipt	0.8765398302764851	0.8812439796339617	0.8788856103753516	0.92678512668641

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：1e-05
训练批次大小（train_batch_size）：2
评估批次大小（eval_batch_size）：2
随机种子（seed）：42
优化器（optimizer）：Adam，其中 betas=(0.9, 0.999)，epsilon=1e-08
学习率调度器类型（lr_scheduler_type）：线性（linear）
训练步数（training_steps）：6000

训练结果

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	精确率（Precision）	召回率（Recall）	F1值（F1）	准确率（Accuracy）
No log	0.16	100	1.5032	0.4934	0.1444	0.2234	0.6064
No log	0.32	200	1.0282	0.5884	0.4420	0.5048	0.7385
No log	0.47	300	0.7856	0.7448	0.6205	0.6770	0.8133
No log	0.63	400	0.6464	0.7736	0.6689	0.7174	0.8399
1.1733	0.79	500	0.5672	0.7609	0.7303	0.7453	0.8557
1.1733	0.95	600	0.5055	0.7658	0.7652	0.7655	0.8677
1.1733	1.1	700	0.4735	0.7946	0.7848	0.7897	0.8784
1.1733	1.26	800	0.4414	0.7962	0.7946	0.7954	0.8818
1.1733	1.42	900	0.4094	0.8176	0.8064	0.8120	0.8894
0.5047	1.58	1000	0.3971	0.8219	0.8248	0.8234	0.8961
0.5047	1.74	1100	0.4082	0.7993	0.8362	0.8174	0.8927
0.5047	1.89	1200	0.3797	0.8240	0.8317	0.8278	0.8962
0.5047	2.05	1300	0.3597	0.8326	0.8331	0.8329	0.9020
0.5047	2.21	1400	0.3544	0.8462	0.8283	0.8371	0.9020
0.368	2.37	1500	0.3374	0.8428	0.8435	0.8432	0.9056
0.368	2.52	1600	0.3364	0.8406	0.8522	0.8464	0.9089
0.368	2.68	1700	0.3404	0.8467	0.8536	0.8501	0.9107
0.368	2.84	1800	0.3319	0.8405	0.8501	0.8453	0.9090
0.368	3.0	1900	0.3324	0.8584	0.8492	0.8538	0.9117
0.2949	3.15	2000	0.3204	0.8691	0.8404	0.8545	0.9119
0.2949	3.31	2100	0.3107	0.8599	0.8547	0.8573	0.9162
0.2949	3.47	2200	0.3169	0.8680	0.8489	0.8584	0.9146
0.2949	3.63	2300	0.3190	0.8683	0.8519	0.8600	0.9152
0.2949	3.79	2400	0.2975	0.8631	0.8617	0.8624	0.9182
0.2438	3.94	2500	0.3040	0.8566	0.8640	0.8603	0.9171
0.2438	4.1	2600	0.3045	0.8585	0.8642	0.8613	0.9181
0.2438	4.26	2700	0.3139	0.8498	0.8748	0.8621	0.9160
0.2438	4.42	2800	0.2985	0.8642	0.8672	0.8657	0.9214
0.2438	4.57	2900	0.3047	0.8688	0.8694	0.8691	0.9214
0.2028	4.73	3000	0.2986	0.8686	0.8695	0.8691	0.9207
0.2028	4.89	3100	0.3135	0.8628	0.8755	0.8691	0.9197
0.2028	5.05	3200	0.2927	0.8656	0.8755	0.8705	0.9217
0.2028	5.21	3300	0.2992	0.8724	0.8697	0.8711	0.9228
0.2028	5.36	3400	0.2975	0.8831	0.8639	0.8734	0.9244
0.1814	5.52	3500	0.2897	0.8736	0.8788	0.8762	0.9250
0.1814	5.68	3600	0.3118	0.8674	0.8751	0.8712	0.9216
0.1814	5.84	3700	0.2974	0.8735	0.8779	0.8757	0.9237
0.1814	5.99	3800	0.2957	0.8696	0.8815	0.8755	0.9240
0.1814	6.15	3900	0.3120	0.8698	0.8817	0.8757	0.9250
0.1602	6.31	4000	0.3080	0.8715	0.8800	0.8757	0.9238
0.1602	6.47	4100	0.3031	0.8767	0.8788	0.8777	0.9261
0.1602	6.62	4200	0.3146	0.8699	0.8784	0.8741	0.9227
0.1602	6.78	4300	0.3085	0.8717	0.8788	0.8752	0.9248
0.1602	6.94	4400	0.3023	0.8749	0.8756	0.8752	0.9250
0.1383	7.1	4500	0.3025	0.8860	0.8735	0.8797	0.9252
0.1383	7.26	4600	0.3026	0.8775	0.8810	0.8792	0.9272
0.1383	7.41	4700	0.3146	0.8715	0.8832	0.8773	0.9251
0.1383	7.57	4800	0.3113	0.8769	0.8803	0.8786	0.9275
0.1383	7.73	4900	0.3073	0.8797	0.8786	0.8792	0.9261
0.1306	7.89	5000	0.3163	0.8714	0.8828	0.8770	0.9248
0.1306	8.04	5100	0.3163	0.8753	0.8810	0.8781	0.9250
0.1306	8.2	5200	0.3132	0.8743	0.8804	0.8773	0.9257
0.1306	8.36	5300	0.3119	0.8735	0.8837	0.8786	0.9264
0.1306	8.52	5400	0.3145	0.8826	0.8779	0.8802	0.9272
0.1174	8.68	5500	0.3166	0.8776	0.8811	0.8794	0.9261
0.1174	8.83	5600	0.3146	0.8776	0.8814	0.8795	0.9260
0.1174	8.99	5700	0.3135	0.8763	0.8826	0.8795	0.9271
0.1174	9.15	5800	0.3154	0.8794	0.8818	0.8806	0.9275
0.1174	9.31	5900	0.3152	0.8788	0.8817	0.8802	0.9274
0.11	9.46	6000	0.3159	0.8765	0.8812	0.8789	0.9268