Lmv2 G Aadhaar 236doc 06 14
L
Lmv2 G Aadhaar 236doc 06 14
由 Sebabrata 开发
该模型是基于microsoft/layoutlmv2-base-uncased微调的版本,专注于文档信息提取任务,在Aadhaar卡、出生日期、性别和姓名等字段的提取上表现出色。
下载量 52
发布时间 : 6/14/2022
模型简介
基于LayoutLMv2架构的文档信息提取模型,专门用于从结构化文档中提取关键字段信息,如身份证号码、出生日期、性别和姓名等。
模型特点
高精度信息提取
在Aadhaar号码、出生日期、性别和姓名等关键字段上达到高精确率和召回率
基于LayoutLMv2架构
利用文本和布局信息进行联合建模,提升文档理解能力
多字段联合识别
能够同时识别文档中的多种不同类型的信息字段
模型能力
文档信息提取
结构化数据识别
身份证信息解析
使用案例
身份验证
Aadhaar卡信息提取
从印度Aadhaar身份证中提取关键信息
Aadhaar号码提取F1值达0.9890
文档处理
出生日期识别
从文档中准确识别出生日期信息
出生日期提取F1值达0.9892
个人信息提取
从文档中提取姓名、性别等个人信息
姓名提取F1值0.9474,性别提取F1值0.9892
🚀 lmv2 - g - aadhaar - 236doc - 06 - 14
该模型是 microsoft/layoutlmv2-base-uncased 在 None 数据集上的微调版本。它在评估集上取得了以下成果,展示了出色的性能表现,能够较为精准地处理相关任务。
🚀 快速开始
本部分暂未提供相关内容,后续可根据实际使用场景补充如何快速使用该模型的步骤,例如加载模型、进行推理等操作的代码示例和说明。
✨ 主要特性
此模型在多个关键指标上表现优异,如在 Aadhaar、Dob、Gender、Name 等信息的识别上,具有较高的精确率、召回率和 F1 值,整体准确率达到了 0.9939,能够较为精准地完成相关信息的识别任务。
📚 详细文档
模型评估结果
该模型在评估集上的具体表现如下:
- 损失值(Loss):0.0427
- Aadhaar 精确率(Precision):0.9783
- Aadhaar 召回率(Recall):1.0
- Aadhaar F1 值:0.9890
- Aadhaar 数量:45
- Dob 精确率:0.9787
- Dob 召回率:1.0
- Dob F1 值:0.9892
- Dob 数量:46
- Gender 精确率:1.0
- Gender 召回率:0.9787
- Gender F1 值:0.9892
- Gender 数量:47
- Name 精确率:0.9574
- Name 召回率:0.9375
- Name F1 值:0.9474
- Name 数量:48
- 整体精确率(Overall Precision):0.9785
- 整体召回率(Overall Recall):0.9785
- 整体 F1 值(Overall F1):0.9785
- 整体准确率(Overall Accuracy):0.9939
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):4e - 05
- 训练批次大小(train_batch_size):1
- 评估批次大小(eval_batch_size):1
- 随机种子(seed):42
- 优化器(optimizer):Adam,其中 betas = (0.9, 0.999),epsilon = 1e - 08
- 学习率调度器类型(lr_scheduler_type):常量
- 训练轮数(num_epochs):30
训练结果
训练损失(Training Loss) | 轮数(Epoch) | 步数(Step) | 验证损失(Validation Loss) | Aadhaar 精确率 | Aadhaar 召回率 | Aadhaar F1 值 | Aadhaar 数量 | Dob 精确率 | Dob 召回率 | Dob F1 值 | Dob 数量 | Gender 精确率 | Gender 召回率 | Gender F1 值 | Gender 数量 | Name 精确率 | Name 召回率 | Name F1 值 | Name 数量 | 整体精确率 | 整体召回率 | 整体 F1 值 | 整体准确率 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1.0024 | 1.0 | 188 | 0.5819 | 0.9348 | 0.9556 | 0.9451 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9574 | 0.9783 | 47 | 0.5172 | 0.625 | 0.5660 | 48 | 0.8410 | 0.8817 | 0.8609 | 0.9744 |
0.4484 | 2.0 | 376 | 0.3263 | 0.8980 | 0.9778 | 0.9362 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.6842 | 0.8125 | 0.7429 | 48 | 0.8838 | 0.9409 | 0.9115 | 0.9733 |
0.2508 | 3.0 | 564 | 0.2230 | 0.9318 | 0.9111 | 0.9213 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8913 | 0.8542 | 0.8723 | 48 | 0.9560 | 0.9355 | 0.9457 | 0.9811 |
0.165 | 4.0 | 752 | 0.1728 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8444 | 0.7917 | 0.8172 | 48 | 0.9457 | 0.9355 | 0.9405 | 0.9844 |
0.1081 | 5.0 | 940 | 0.0987 | 0.8958 | 0.9556 | 0.9247 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 1.0 | 0.9167 | 0.9565 | 48 | 0.9728 | 0.9624 | 0.9676 | 0.9928 |
0.0834 | 6.0 | 1128 | 0.0984 | 0.8980 | 0.9778 | 0.9362 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9574 | 0.9783 | 47 | 0.8148 | 0.9167 | 0.8627 | 48 | 0.9227 | 0.9624 | 0.9421 | 0.9833 |
0.0676 | 7.0 | 1316 | 0.0773 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9111 | 0.8542 | 0.8817 | 48 | 0.9620 | 0.9516 | 0.9568 | 0.9894 |
0.0572 | 8.0 | 1504 | 0.0786 | 0.8235 | 0.9333 | 0.8750 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8936 | 0.875 | 0.8842 | 48 | 0.9263 | 0.9462 | 0.9362 | 0.9872 |
0.0481 | 9.0 | 1692 | 0.0576 | 0.9375 | 1.0 | 0.9677 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9362 | 0.9167 | 0.9263 | 48 | 0.9679 | 0.9731 | 0.9705 | 0.99 |
0.0349 | 10.0 | 1880 | 0.0610 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8958 | 0.8958 | 0.8958 | 48 | 0.9626 | 0.9677 | 0.9651 | 0.9894 |
0.0287 | 11.0 | 2068 | 0.0978 | 0.9091 | 0.8889 | 0.8989 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9348 | 0.8958 | 0.9149 | 48 | 0.9615 | 0.9409 | 0.9511 | 0.985 |
0.0297 | 12.0 | 2256 | 0.0993 | 0.9375 | 1.0 | 0.9677 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.7959 | 0.8125 | 0.8041 | 48 | 0.9312 | 0.9462 | 0.9387 | 0.9833 |
0.0395 | 13.0 | 2444 | 0.0824 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.875 | 0.875 | 0.875 | 48 | 0.9519 | 0.9570 | 0.9544 | 0.9872 |
0.0333 | 14.0 | 2632 | 0.0788 | 0.8913 | 0.9111 | 0.9011 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9556 | 0.8958 | 0.9247 | 48 | 0.9617 | 0.9462 | 0.9539 | 0.9867 |
0.0356 | 15.0 | 2820 | 0.0808 | 0.84 | 0.9333 | 0.8842 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9565 | 0.9167 | 0.9362 | 48 | 0.9468 | 0.9570 | 0.9519 | 0.9867 |
0.0192 | 16.0 | 3008 | 0.0955 | 0.8462 | 0.9778 | 0.9072 | 45 | 0.9787 | 1.0 | 0.9892 | 46 | 0.9583 | 0.9787 | 0.9684 | 47 | 0.9070 | 0.8125 | 0.8571 | 48 | 0.9211 | 0.9409 | 0.9309 | 0.9822 |
0.016 | 17.0 | 3196 | 0.0936 | 0.9130 | 0.9333 | 0.9231 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9318 | 0.8542 | 0.8913 | 48 | 0.9615 | 0.9409 | 0.9511 | 0.9867 |
0.0218 | 18.0 | 3384 | 0.1009 | 0.9545 | 0.9333 | 0.9438 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8571 | 0.875 | 0.8660 | 48 | 0.9514 | 0.9462 | 0.9488 | 0.9844 |
0.0165 | 19.0 | 3572 | 0.0517 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9333 | 0.875 | 0.9032 | 48 | 0.9728 | 0.9624 | 0.9676 | 0.9906 |
0.0198 | 20.0 | 3760 | 0.0890 | 0.9167 | 0.9778 | 0.9462 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9149 | 0.8958 | 0.9053 | 48 | 0.9572 | 0.9624 | 0.9598 | 0.9867 |
0.0077 | 21.0 | 3948 | 0.0835 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.88 | 0.9167 | 0.8980 | 48 | 0.9577 | 0.9731 | 0.9653 | 0.9872 |
0.0088 | 22.0 | 4136 | 0.0427 | 0.9783 | 1.0 | 0.9890 | 45 | 0.9787 | 1.0 | 0.9892 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9574 | 0.9375 | 0.9474 | 48 | 0.9785 | 0.9785 | 0.9785 | 0.9939 |
0.0078 | 23.0 | 4324 | 0.0597 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8654 | 0.9375 | 0.9 | 48 | 0.9529 | 0.9785 | 0.9655 | 0.9889 |
0.0178 | 24.0 | 4512 | 0.0524 | 0.9574 | 1.0 | 0.9783 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 1.0 | 0.875 | 0.9333 | 48 | 0.9890 | 0.9624 | 0.9755 | 0.9922 |
0.012 | 25.0 | 4700 | 0.0637 | 0.9375 | 1.0 | 0.9677 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.8491 | 0.9375 | 0.8911 | 48 | 0.9430 | 0.9785 | 0.9604 | 0.9867 |
0.0135 | 26.0 | 4888 | 0.0668 | 0.9184 | 1.0 | 0.9574 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.86 | 0.8958 | 0.8776 | 48 | 0.9424 | 0.9677 | 0.9549 | 0.9867 |
0.0123 | 27.0 | 5076 | 0.0713 | 0.9565 | 0.9778 | 0.9670 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9375 | 0.9375 | 0.9375 | 48 | 0.9731 | 0.9731 | 0.9731 | 0.9911 |
0.0074 | 28.0 | 5264 | 0.0675 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9 | 0.9375 | 0.9184 | 48 | 0.9577 | 0.9731 | 0.9653 | 0.99 |
0.0051 | 29.0 | 5452 | 0.0713 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9167 | 0.9167 | 0.9167 | 48 | 0.9626 | 0.9677 | 0.9651 | 0.9906 |
0.0027 | 30.0 | 5640 | 0.0725 | 0.9362 | 0.9778 | 0.9565 | 45 | 1.0 | 1.0 | 1.0 | 46 | 1.0 | 0.9787 | 0.9892 | 47 | 0.9167 | 0.9167 | 0.9167 | 48 | 0.9626 | 0.9677 | 0.9651 | 0.9906 |
框架版本
- Transformers 4.20.0.dev0
- Pytorch 1.11.0 + cu113
- Datasets 2.2.2
- Tokenizers 0.12.1
📄 许可证
本模型采用 CC - BY - NC - SA 4.0 许可证。
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers 其他

I
w11wo
2.2M
7
Bert Base NER
MIT
基于BERT微调的命名实体识别模型,可识别四类实体:地点(LOC)、组织机构(ORG)、人名(PER)和杂项(MISC)
序列标注 英语
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
该模型是基于RoBERTa微调的序列标注模型,用于识别和移除医疗记录中的受保护健康信息(PHI/PII)。
序列标注
Transformers 支持多种语言

D
obi
1.1M
33
Ner English Fast
Flair自带的英文快速4类命名实体识别模型,基于Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上达到92.92的F1分数。
序列标注
PyTorch 英语
N
flair
978.01k
24
French Camembert Postag Model
基于Camembert-base的法语词性标注模型,使用free-french-treebank数据集训练
序列标注
Transformers 法语

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基于XLM-Roberta-large架构微调的西班牙语命名实体识别模型,在CoNLL-2002数据集上表现优异。
序列标注
Transformers 西班牙语

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基于NusaBert-v1.3在印尼语NER任务上微调的命名实体识别模型
序列标注
Transformers 其他

N
cahya
759.09k
3
Ner English Large
Flair框架内置的英文4类大型NER模型,基于文档级XLM-R嵌入和FLERT技术,在CoNLL-03数据集上F1分数达94.36。
序列标注
PyTorch 英语
N
flair
749.04k
44
Punctuate All
MIT
基于xlm-roberta-base微调的多语言标点符号预测模型,支持12种欧洲语言的标点符号自动补全
序列标注
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基于xlm-roberta-base微调的日语命名实体识别模型
序列标注
Transformers 支持多种语言

X
tsmatz
630.71k
25
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98