Lmv2 G Aadhaar 236doc 06 14
L
Lmv2 G Aadhaar 236doc 06 14
由Sebabrata開發
該模型是基於microsoft/layoutlmv2-base-uncased微調的版本,專注於文檔信息提取任務,在Aadhaar卡、出生日期、性別和姓名等字段的提取上表現出色。
下載量 52
發布時間 : 6/14/2022
模型概述
基於LayoutLMv2架構的文檔信息提取模型,專門用於從結構化文檔中提取關鍵字段信息,如身份證號碼、出生日期、性別和姓名等。
模型特點
高精度信息提取
在Aadhaar號碼、出生日期、性別和姓名等關鍵字段上達到高精確率和召回率
基於LayoutLMv2架構
利用文本和佈局信息進行聯合建模,提升文檔理解能力
多字段聯合識別
能夠同時識別文檔中的多種不同類型的信息字段
模型能力
文檔信息提取
結構化數據識別
身份證信息解析
使用案例
身份驗證
Aadhaar卡信息提取
從印度Aadhaar身份證中提取關鍵信息
Aadhaar號碼提取F1值達0.9890
文檔處理
出生日期識別
從文檔中準確識別出生日期信息
出生日期提取F1值達0.9892
個人信息提取
從文檔中提取姓名、性別等個人信息
姓名提取F1值0.9474,性別提取F1值0.9892
🚀 lmv2 - g - aadhaar - 236doc - 06 - 14
該模型是 microsoft/layoutlmv2-base-uncased 在 None 數據集上的微調版本。它在評估集上取得了以下成果,展示了出色的性能表現,能夠較為精準地處理相關任務。
🚀 快速開始
本部分暫未提供相關內容,後續可根據實際使用場景補充如何快速使用該模型的步驟,例如加載模型、進行推理等操作的代碼示例和說明。
✨ 主要特性
此模型在多個關鍵指標上表現優異,如在 Aadhaar、Dob、Gender、Name 等信息的識別上,具有較高的精確率、召回率和 F1 值,整體準確率達到了 0.9939,能夠較為精準地完成相關信息的識別任務。
📚 詳細文檔
模型評估結果
該模型在評估集上的具體表現如下:
- 損失值(Loss):0.0427
- Aadhaar 精確率(Precision):0.9783
- Aadhaar 召回率(Recall):1.0
- Aadhaar F1 值:0.9890
- Aadhaar 數量:45
- Dob 精確率:0.9787
- Dob 召回率:1.0
- Dob F1 值:0.9892
- Dob 數量:46
- Gender 精確率:1.0
- Gender 召回率:0.9787
- Gender F1 值:0.9892
- Gender 數量:47
- Name 精確率:0.9574
- Name 召回率:0.9375
- Name F1 值:0.9474
- Name 數量:48
- 整體精確率(Overall Precision):0.9785
- 整體召回率(Overall Recall):0.9785
- 整體 F1 值(Overall F1):0.9785
- 整體準確率(Overall Accuracy):0.9939
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):4e - 05
- 訓練批次大小(train_batch_size):1
- 評估批次大小(eval_batch_size):1
- 隨機種子(seed):42
- 優化器(optimizer):Adam,其中 betas = (0.9, 0.999),epsilon = 1e - 08
- 學習率調度器類型(lr_scheduler_type):常量
- 訓練輪數(num_epochs):30
訓練結果
訓練損失(Training Loss) | 輪數(Epoch) | 步數(Step) | 驗證損失(Validation Loss) | Aadhaar 精確率 | Aadhaar 召回率 | Aadhaar F1 值 | Aadhaar 數量 | Dob 精確率 | Dob 召回率 | Dob F1 值 | Dob 數量 | Gender 精確率 | Gender 召回率 | Gender F1 值 | Gender 數量 | Name 精確率 | Name 召回率 | Name F1 值 | Name 數量 | 整體精確率 | 整體召回率 | 整體 F1 值 | 整體準確率 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1.0024 | 1.0 | 188 | 0.5819 | 0.9348 | 0.9556 | 0.9451 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9574 | 0.9783 | 47 | 0.5172 | 0.625 | 0.5660 | 48 | 0.8410 | 0.8817 | 0.8609 | 0.9744 |
0.4484 | 2.0 | 376 | 0.3263 | 0.8980 | 0.9778 | 0.9362 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.6842 | 0.8125 | 0.7429 | 48 | 0.8838 | 0.9409 | 0.9115 | 0.9733 |
0.2508 | 3.0 | 564 | 0.2230 | 0.9318 | 0.9111 | 0.9213 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8913 | 0.8542 | 0.8723 | 48 | 0.9560 | 0.9355 | 0.9457 | 0.9811 |
0.165 | 4.0 | 752 | 0.1728 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8444 | 0.7917 | 0.8172 | 48 | 0.9457 | 0.9355 | 0.9405 | 0.9844 |
0.1081 | 5.0 | 940 | 0.0987 | 0.8958 | 0.9556 | 0.9247 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 1.0 | 0.9167 | 0.9565 | 48 | 0.9728 | 0.9624 | 0.9676 | 0.9928 |
0.0834 | 6.0 | 1128 | 0.0984 | 0.8980 | 0.9778 | 0.9362 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9574 | 0.9783 | 47 | 0.8148 | 0.9167 | 0.8627 | 48 | 0.9227 | 0.9624 | 0.9421 | 0.9833 |
0.0676 | 7.0 | 1316 | 0.0773 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9111 | 0.8542 | 0.8817 | 48 | 0.9620 | 0.9516 | 0.9568 | 0.9894 |
0.0572 | 8.0 | 1504 | 0.0786 | 0.8235 | 0.9333 | 0.8750 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8936 | 0.875 | 0.8842 | 48 | 0.9263 | 0.9462 | 0.9362 | 0.9872 |
0.0481 | 9.0 | 1692 | 0.0576 | 0.9375 | 1.0 | 0.9677 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9362 | 0.9167 | 0.9263 | 48 | 0.9679 | 0.9731 | 0.9705 | 0.99 |
0.0349 | 10.0 | 1880 | 0.0610 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8958 | 0.8958 | 0.8958 | 48 | 0.9626 | 0.9677 | 0.9651 | 0.9894 |
0.0287 | 11.0 | 2068 | 0.0978 | 0.9091 | 0.8889 | 0.8989 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9348 | 0.8958 | 0.9149 | 48 | 0.9615 | 0.9409 | 0.9511 | 0.985 |
0.0297 | 12.0 | 2256 | 0.0993 | 0.9375 | 1.0 | 0.9677 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.7959 | 0.8125 | 0.8041 | 48 | 0.9312 | 0.9462 | 0.9387 | 0.9833 |
0.0395 | 13.0 | 2444 | 0.0824 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.875 | 0.875 | 0.875 | 48 | 0.9519 | 0.9570 | 0.9544 | 0.9872 |
0.0333 | 14.0 | 2632 | 0.0788 | 0.8913 | 0.9111 | 0.9011 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9556 | 0.8958 | 0.9247 | 48 | 0.9617 | 0.9462 | 0.9539 | 0.9867 |
0.0356 | 15.0 | 2820 | 0.0808 | 0.84 | 0.9333 | 0.8842 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9565 | 0.9167 | 0.9362 | 48 | 0.9468 | 0.9570 | 0.9519 | 0.9867 |
0.0192 | 16.0 | 3008 | 0.0955 | 0.8462 | 0.9778 | 0.9072 | 45 | 0.9787 | 1.0 | 0.9892 | 46 | 0.9583 | 0.9787 | 0.9684 | 47 | 0.9070 | 0.8125 | 0.8571 | 48 | 0.9211 | 0.9409 | 0.9309 | 0.9822 |
0.016 | 17.0 | 3196 | 0.0936 | 0.9130 | 0.9333 | 0.9231 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9318 | 0.8542 | 0.8913 | 48 | 0.9615 | 0.9409 | 0.9511 | 0.9867 |
0.0218 | 18.0 | 3384 | 0.1009 | 0.9545 | 0.9333 | 0.9438 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8571 | 0.875 | 0.8660 | 48 | 0.9514 | 0.9462 | 0.9488 | 0.9844 |
0.0165 | 19.0 | 3572 | 0.0517 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9333 | 0.875 | 0.9032 | 48 | 0.9728 | 0.9624 | 0.9676 | 0.9906 |
0.0198 | 20.0 | 3760 | 0.0890 | 0.9167 | 0.9778 | 0.9462 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9149 | 0.8958 | 0.9053 | 48 | 0.9572 | 0.9624 | 0.9598 | 0.9867 |
0.0077 | 21.0 | 3948 | 0.0835 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.88 | 0.9167 | 0.8980 | 48 | 0.9577 | 0.9731 | 0.9653 | 0.9872 |
0.0088 | 22.0 | 4136 | 0.0427 | 0.9783 | 1.0 | 0.9890 | 45 | 0.9787 | 1.0 | 0.9892 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9574 | 0.9375 | 0.9474 | 48 | 0.9785 | 0.9785 | 0.9785 | 0.9939 |
0.0078 | 23.0 | 4324 | 0.0597 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8654 | 0.9375 | 0.9 | 48 | 0.9529 | 0.9785 | 0.9655 | 0.9889 |
0.0178 | 24.0 | 4512 | 0.0524 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 1.0 | 0.875 | 0.9333 | 48 | 0.9890 | 0.9624 | 0.9755 | 0.9922 |
0.012 | 25.0 | 4700 | 0.0637 | 0.9375 | 1.0 | 0.9677 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8491 | 0.9375 | 0.8911 | 48 | 0.9430 | 0.9785 | 0.9604 | 0.9867 |
0.0135 | 26.0 | 4888 | 0.0668 | 0.9184 | 1.0 | 0.9574 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.86 | 0.8958 | 0.8776 | 48 | 0.9424 | 0.9677 | 0.9549 | 0.9867 |
0.0123 | 27.0 | 5076 | 0.0713 | 0.9565 | 0.9778 | 0.9670 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9375 | 0.9375 | 0.9375 | 48 | 0.9731 | 0.9731 | 0.9731 | 0.9911 |
0.0074 | 28.0 | 5264 | 0.0675 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9 | 0.9375 | 0.9184 | 48 | 0.9577 | 0.9731 | 0.9653 | 0.99 |
0.0051 | 29.0 | 5452 | 0.0713 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9167 | 0.9167 | 0.9167 | 48 | 0.9626 | 0.9677 | 0.9651 | 0.9906 |
0.0027 | 30.0 | 5640 | 0.0725 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9167 | 0.9167 | 0.9167 | 48 | 0.9626 | 0.9677 | 0.9651 | 0.9906 |
框架版本
- Transformers 4.20.0.dev0
- Pytorch 1.11.0 + cu113
- Datasets 2.2.2
- Tokenizers 0.12.1
📄 許可證
本模型採用 CC - BY - NC - SA 4.0 許可證。
Indonesian Roberta Base Posp Tagger
MIT
這是一個基於印尼語RoBERTa模型微調的詞性標註模型,在indonlu數據集上訓練,用於印尼語文本的詞性標註任務。
序列標註
Transformers 其他

I
w11wo
2.2M
7
Bert Base NER
MIT
基於BERT微調的命名實體識別模型,可識別四類實體:地點(LOC)、組織機構(ORG)、人名(PER)和雜項(MISC)
序列標註 英語
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
該模型是基於RoBERTa微調的序列標註模型,用於識別和移除醫療記錄中的受保護健康信息(PHI/PII)。
序列標註
Transformers 支持多種語言

D
obi
1.1M
33
Ner English Fast
Flair自帶的英文快速4類命名實體識別模型,基於Flair嵌入和LSTM-CRF架構,在CoNLL-03數據集上達到92.92的F1分數。
序列標註
PyTorch 英語
N
flair
978.01k
24
French Camembert Postag Model
基於Camembert-base的法語詞性標註模型,使用free-french-treebank數據集訓練
序列標註
Transformers 法語

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基於XLM-Roberta-large架構微調的西班牙語命名實體識別模型,在CoNLL-2002數據集上表現優異。
序列標註
Transformers 西班牙語

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基於NusaBert-v1.3在印尼語NER任務上微調的命名實體識別模型
序列標註
Transformers 其他

N
cahya
759.09k
3
Ner English Large
Flair框架內置的英文4類大型NER模型,基於文檔級XLM-R嵌入和FLERT技術,在CoNLL-03數據集上F1分數達94.36。
序列標註
PyTorch 英語
N
flair
749.04k
44
Punctuate All
MIT
基於xlm-roberta-base微調的多語言標點符號預測模型,支持12種歐洲語言的標點符號自動補全
序列標註
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基於xlm-roberta-base微調的日語命名實體識別模型
序列標註
Transformers 支持多種語言

X
tsmatz
630.71k
25
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98