kyc_v1-donut-demo开源模型 - 免费解析印度KYC证件信息，支持多类证件

首页

Kyc V1 Donut Demo

由 sourinkarmakar 开发

Donut 是一个端到端的视觉文档理解模型，专门用于解析印度 KYC 证件信息，支持 Aadhar 卡、PAN 卡和选民证的分类与内容提取。

图像生成文本

Transformers

支持多种语言#端到端文档理解 #印度KYC证件识别 #无OCR依赖

下载量 40

发布时间 : 7/3/2023

模型简介

该模型采用 Transformer 架构，无需依赖 OCR 模块即可直接从文档图像中提取结构化信息，支持多类型证件识别和朝向检测。

模型特点

端到端处理

无需 OCR 预处理，直接从图像到结构化输出

多证件支持

可识别 Aadhar 卡、PAN 卡和选民证三种印度 KYC 证件

朝向自适应

自动检测文档摆放方向，支持任意朝向的输入

色彩检测

可识别文档图像为彩色或黑白版本

模型能力

文档分类

文本信息提取

图像朝向检测

色彩模式识别

使用案例

金融合规

KYC 自动化审核

自动提取客户证件信息用于银行开户验证

准确率：PAN 卡 94%，选民证 76%

身份验证

证件信息数字化

将纸质证件转换为结构化电子数据

支持 JSON 格式输出

🚀 甜甜圈（Donut）印度KYC文档识别模型

甜甜圈（Donut）是一个端到端的视觉文档理解（VDU）模型，可用于全面理解文档图像。它能对印度KYC文档进行内容读取、分类，还能检测文档的方向和颜色模式。

🚀 快速开始

推理示例

from transformers import DonutProcessor, VisionEncoderDecoderModel

import re
import cv2
import json
import torch
from tqdm.auto import tqdm
import numpy as np

from donut import JSONParseEvaluator

processor = DonutProcessor.from_pretrained("sourinkarmakar/kyc_v1-donut-demo")
model = VisionEncoderDecoderModel.from_pretrained("sourinkarmakar/kyc_v1-donut-demo")

# Need to install python-donut
# !pip install -q donut-python

# Images stored inside a folder 'unseen_samples'
dataset = glob.glob(os.path.join(basepath, "unseen_samples/*"))

output_list = []

for idx, sample in tqdm(enumerate(dataset), total=len(dataset)):
# prepare encoder inputs
img = cv2.imread(sample)
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
pixel_values = processor(img, return_tensors="pt").pixel_values
pixel_values = pixel_values.to(device)

# prepare decoder inputs
task_prompt = "<s_cord-v2>"
decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids
decoder_input_ids = decoder_input_ids.to(device)

# autoregressively generate sequence
outputs = model.generate(
pixel_values,
decoder_input_ids=decoder_input_ids,
max_length=model.decoder.config.max_position_embeddings,
early_stopping=True,
pad_token_id=processor.tokenizer.pad_token_id,
eos_token_id=processor.tokenizer.eos_token_id,
use_cache=True,
num_beams=1,
bad_words_ids=[[processor.tokenizer.unk_token_id]],
return_dict_in_generate=True,
)

# turn into JSON
seq = processor.batch_decode(outputs.sequences)[0]
seq = seq.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
seq = re.sub(r"<.*?>", "", seq, count=1).strip() # remove first task start token
seq = processor.token2json(seq)

output_list.append(seq)

print(output_list)

✨ 主要特性

端到端设计：甜甜圈（Donut）是一个端到端的视觉文档理解（VDU）模型，无需依赖OCR相关模块。
简单架构：由基于Transformer的视觉编码器和文本解码器模块组成，易于进行端到端训练。
多任务处理：能够对印度KYC文档（如Aadhar、PAN和Voter）进行内容分类和读取，还能检测文档的方向和颜色模式。

📦 安装指南

使用此模型需要安装transformers和donut-python库，可使用以下命令进行安装：

pip install transformers
pip install -q donut-python

📚 详细文档

模型描述

甜甜圈（Donut）是一个用于文档图像通用理解的端到端（即独立的）VDU模型。其架构相当简单，由基于Transformer的视觉编码器和文本解码器模块组成。甜甜圈不依赖任何与OCR功能相关的模块，而是使用视觉编码器从给定的文档图像中提取特征。随后的文本解码器将提取的特征映射到子词标记序列，以构建所需的结构化格式（例如JSON）。每个模型组件都基于Transformer，因此该模型可以轻松地进行端到端训练。

预期用途和局限性

此模型经过训练，用于读取印度KYC文档的内容。它可以对Aadhar、PAN和Voter文档进行分类和内容读取，还能检测文档的方向以及文档是彩色还是黑白。输入的文档可以是任意方向。模型需要提供质量较好的图像（以便内容可读）。由于该模型是在有限的数据上进行训练的，因此性能可能不是非常理想。在未来的版本中，将使用更多的图像，并添加更多类型的KYC文档。