UVDoc开源模型 - 纠正文本图像扭曲倾斜，提升文本识别准确性

首页

Uvdoc

由 PaddlePaddle 开发

UVDoc主要用于对文本图像进行几何变换，以纠正图像中文档的扭曲、倾斜、透视变形等问题，从而提高后续文本识别的准确性。

文字识别支持多种语言开源协议:Apache-2.0 #文档图像矫正 #几何变形纠正 #OCR预处理

下载量 8,072

发布时间 : 6/6/2025

模型简介

UVDoc是一个文档图像矫正模型，能够处理文档图像的几何变形问题，如扭曲、倾斜和透视变形，优化后续的文本识别流程。

模型特点

几何变换矫正

能够自动检测并矫正文档图像中的扭曲、倾斜和透视变形问题。

集成PaddleOCR

与PaddleOCR无缝集成，可作为OCR预处理步骤提升识别准确率。

管道化处理

支持作为PP-StructureV3文档分析管道的预处理模块，提供端到端解决方案。

模型能力

文档图像矫正

文本识别预处理

几何变形修复

使用案例

文档数字化

扫描文档矫正

对扫描仪或手机拍摄的扭曲文档进行自动矫正

CER 0.179（DocUNet基准数据集）

OCR预处理

作为OCR系统的前置处理模块提升识别准确率

结构化文档分析

PP-StructureV3集成

作为文档分析管道的预处理步骤

提升表格/公式等结构化元素的识别精度

🚀 UVDoc

UVDoc主要用于对文本图像进行几何变换，以纠正图像中文档的扭曲、倾斜、透视变形等问题，从而提高后续文本识别的准确性。

🚀 快速开始

📦 安装指南

1. 安装PaddlePaddle

请参考以下命令，使用pip安装PaddlePaddle：

# 适用于CUDA11.8
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

# 适用于CUDA12.6
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

# 适用于CPU
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

PaddlePaddle安装的详细信息，请参考PaddlePaddle官方网站。

2. 安装PaddleOCR

从PyPI安装最新版本的PaddleOCR推理包：

python -m pip install paddleocr

💻 使用示例

基础用法

你可以使用单个命令快速体验该功能：

paddleocr text_image_unwarping --model_name UVDoc -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/SfMVKd0xnMII5KBDV6Mfz.jpeg

高级用法

你也可以将TextImageUnwarping模块的模型推理集成到你的项目中。在运行以下代码之前，请将示例图像下载到本地。

from paddleocr import TextImageUnwarping

model = TextImageUnwarping(model_name="UVDoc")
output = model.predict("SfMVKd0xnMII5KBDV6Mfz.jpeg", batch_size=1)
for res in output:
    res.print()
    res.save_to_img(save_path="./output/")
    res.save_to_json(save_path="./output/res.json")

运行后，得到的结果如下：

{'res': {'input_path': 'doc_test.jpg', 'page_index': None, 'doctr_img': '...'}}

可视化图像如下： image/jpeg

使用命令和参数说明的详细信息，请参考文档。

管道使用

单个模型的能力是有限的。但由多个模型组成的管道可以提供更强的能力，以解决现实场景中的难题。

PP-StructureV3

布局分析是一种从文档图像中提取结构化信息的技术。PP-StructureV3包括以下六个模块：

布局检测模块
通用OCR子管道
文档图像预处理子管道（可选）
表格识别子管道（可选）
印章识别子管道（可选）
公式识别子管道（可选）

你可以使用单个命令快速体验PP-StructureV3管道：

paddleocr pp_structurev3 --use_doc_unwarping True -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/KP10tiSZfAjMuwZUSLtRp.png

你只需几行代码就可以体验管道的推理。以PP-StructureV3管道为例：

from paddleocr import PPStructureV3

pipeline = PPStructureV3(use_doc_unwarping=True) # 使用use_doc_unwarping来启用/禁用文档矫正模块
output = pipeline.predict("./KP10tiSZfAjMuwZUSLtRp.png")
for res in output:
    res.print() ## 打印结构化预测输出
    res.save_to_json(save_path="output") ## 以JSON格式保存当前图像的结构化结果
    res.save_to_markdown(save_path="output") ## 以Markdown格式保存当前图像的结果