OCR-LayoutLMv3-Invoice開源發票識別模型 - 精準提取發票結構化信息

首頁

OCR LayoutLMv3 Invoice

由jinhybr開發

基於LayoutLMv3-base微調的發票識別模型，在wild_receipt數據集上訓練，擅長從發票中提取結構化信息。

序列標註

Transformers

#發票信息抽取 #高精度OCR #結構化識別

下載量 340

發布時間 : 11/7/2022

模型概述

該模型是針對發票文本識別優化的OCR模型，能夠準確識別和分類發票中的各類信息字段。

模型特點

高精度發票識別

在wild_receipt數據集上達到87.65%的精確率和88.12%的召回率

基於LayoutLMv3架構

利用先進的視覺-語言預訓練模型，結合文本和佈局信息進行識別

端到端訓練

直接從原始發票圖像中學習文本和佈局特徵

模型能力

發票文本識別

結構化信息提取

票據字段分類

使用案例

財務自動化

發票信息提取

自動從各類發票中提取關鍵信息如金額、日期、商家等

準確率92.68%，F1值87.89%

企業報銷

報銷單處理

自動識別和分類報銷單據中的各項費用

🚀 OCR-LayoutLMv3-Invoice

本模型是基於 microsoft/layoutlmv3-base 在 wild_receipt 數據集上微調得到的版本。它在評估集上取得了以下結果：

損失值（Loss）：0.3159
精確率（Precision）：0.8765
召回率（Recall）：0.8812
F1值（F1）：0.8789
準確率（Accuracy）：0.9268

📚 詳細文檔

模型信息

屬性	詳情
模型名稱	OCR-LayoutLMv3-Invoice
生成標籤	generated_from_trainer
數據集	wild_receipt
評估指標	精確率（Precision）、召回率（Recall）、F1值（F1）、準確率（Accuracy）

模型評估結果

任務名稱	任務類型	數據集名稱	數據集類型	數據集配置	數據集劃分	數據集參數	精確率	召回率	F1值	準確率
標記分類（Token Classification）	標記分類（token-classification）	wild_receipt	wild_receipt	WildReceipt	train	WildReceipt	0.8765398302764851	0.8812439796339617	0.8788856103753516	0.92678512668641

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：1e-05
訓練批次大小（train_batch_size）：2
評估批次大小（eval_batch_size）：2
隨機種子（seed）：42
優化器（optimizer）：Adam，其中 betas=(0.9, 0.999)，epsilon=1e-08
學習率調度器類型（lr_scheduler_type）：線性（linear）
訓練步數（training_steps）：6000

訓練結果

訓練損失（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失（Validation Loss）	精確率（Precision）	召回率（Recall）	F1值（F1）	準確率（Accuracy）
No log	0.16	100	1.5032	0.4934	0.1444	0.2234	0.6064
No log	0.32	200	1.0282	0.5884	0.4420	0.5048	0.7385
No log	0.47	300	0.7856	0.7448	0.6205	0.6770	0.8133
No log	0.63	400	0.6464	0.7736	0.6689	0.7174	0.8399
1.1733	0.79	500	0.5672	0.7609	0.7303	0.7453	0.8557
1.1733	0.95	600	0.5055	0.7658	0.7652	0.7655	0.8677
1.1733	1.1	700	0.4735	0.7946	0.7848	0.7897	0.8784
1.1733	1.26	800	0.4414	0.7962	0.7946	0.7954	0.8818
1.1733	1.42	900	0.4094	0.8176	0.8064	0.8120	0.8894
0.5047	1.58	1000	0.3971	0.8219	0.8248	0.8234	0.8961
0.5047	1.74	1100	0.4082	0.7993	0.8362	0.8174	0.8927
0.5047	1.89	1200	0.3797	0.8240	0.8317	0.8278	0.8962
0.5047	2.05	1300	0.3597	0.8326	0.8331	0.8329	0.9020
0.5047	2.21	1400	0.3544	0.8462	0.8283	0.8371	0.9020
0.368	2.37	1500	0.3374	0.8428	0.8435	0.8432	0.9056
0.368	2.52	1600	0.3364	0.8406	0.8522	0.8464	0.9089
0.368	2.68	1700	0.3404	0.8467	0.8536	0.8501	0.9107
0.368	2.84	1800	0.3319	0.8405	0.8501	0.8453	0.9090
0.368	3.0	1900	0.3324	0.8584	0.8492	0.8538	0.9117
0.2949	3.15	2000	0.3204	0.8691	0.8404	0.8545	0.9119
0.2949	3.31	2100	0.3107	0.8599	0.8547	0.8573	0.9162
0.2949	3.47	2200	0.3169	0.8680	0.8489	0.8584	0.9146
0.2949	3.63	2300	0.3190	0.8683	0.8519	0.8600	0.9152
0.2949	3.79	2400	0.2975	0.8631	0.8617	0.8624	0.9182
0.2438	3.94	2500	0.3040	0.8566	0.8640	0.8603	0.9171
0.2438	4.1	2600	0.3045	0.8585	0.8642	0.8613	0.9181
0.2438	4.26	2700	0.3139	0.8498	0.8748	0.8621	0.9160
0.2438	4.42	2800	0.2985	0.8642	0.8672	0.8657	0.9214
0.2438	4.57	2900	0.3047	0.8688	0.8694	0.8691	0.9214
0.2028	4.73	3000	0.2986	0.8686	0.8695	0.8691	0.9207
0.2028	4.89	3100	0.3135	0.8628	0.8755	0.8691	0.9197
0.2028	5.05	3200	0.2927	0.8656	0.8755	0.8705	0.9217
0.2028	5.21	3300	0.2992	0.8724	0.8697	0.8711	0.9228
0.2028	5.36	3400	0.2975	0.8831	0.8639	0.8734	0.9244
0.1814	5.52	3500	0.2897	0.8736	0.8788	0.8762	0.9250
0.1814	5.68	3600	0.3118	0.8674	0.8751	0.8712	0.9216
0.1814	5.84	3700	0.2974	0.8735	0.8779	0.8757	0.9237
0.1814	5.99	3800	0.2957	0.8696	0.8815	0.8755	0.9240
0.1814	6.15	3900	0.3120	0.8698	0.8817	0.8757	0.9250
0.1602	6.31	4000	0.3080	0.8715	0.8800	0.8757	0.9238
0.1602	6.47	4100	0.3031	0.8767	0.8788	0.8777	0.9261
0.1602	6.62	4200	0.3146	0.8699	0.8784	0.8741	0.9227
0.1602	6.78	4300	0.3085	0.8717	0.8788	0.8752	0.9248
0.1602	6.94	4400	0.3023	0.8749	0.8756	0.8752	0.9250
0.1383	7.1	4500	0.3025	0.8860	0.8735	0.8797	0.9252
0.1383	7.26	4600	0.3026	0.8775	0.8810	0.8792	0.9272
0.1383	7.41	4700	0.3146	0.8715	0.8832	0.8773	0.9251
0.1383	7.57	4800	0.3113	0.8769	0.8803	0.8786	0.9275
0.1383	7.73	4900	0.3073	0.8797	0.8786	0.8792	0.9261
0.1306	7.89	5000	0.3163	0.8714	0.8828	0.8770	0.9248
0.1306	8.04	5100	0.3163	0.8753	0.8810	0.8781	0.9250
0.1306	8.2	5200	0.3132	0.8743	0.8804	0.8773	0.9257
0.1306	8.36	5300	0.3119	0.8735	0.8837	0.8786	0.9264
0.1306	8.52	5400	0.3145	0.8826	0.8779	0.8802	0.9272
0.1174	8.68	5500	0.3166	0.8776	0.8811	0.8794	0.9261
0.1174	8.83	5600	0.3146	0.8776	0.8814	0.8795	0.9260
0.1174	8.99	5700	0.3135	0.8763	0.8826	0.8795	0.9271
0.1174	9.15	5800	0.3154	0.8794	0.8818	0.8806	0.9275
0.1174	9.31	5900	0.3152	0.8788	0.8817	0.8802	0.9274
0.11	9.46	6000	0.3159	0.8765	0.8812	0.8789	0.9268