🚀 UVDoc
UVDoc主要用于对文本图像进行几何变换,以纠正图像中文档的扭曲、倾斜、透视变形等问题,从而提高后续文本识别的准确性。
🚀 快速开始
📦 安装指南
1. 安装PaddlePaddle
请参考以下命令,使用pip安装PaddlePaddle:
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddle安装的详细信息,请参考PaddlePaddle官方网站。
2. 安装PaddleOCR
从PyPI安装最新版本的PaddleOCR推理包:
python -m pip install paddleocr
💻 使用示例
基础用法
你可以使用单个命令快速体验该功能:
paddleocr text_image_unwarping --model_name UVDoc -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/SfMVKd0xnMII5KBDV6Mfz.jpeg
高级用法
你也可以将TextImageUnwarping模块的模型推理集成到你的项目中。在运行以下代码之前,请将示例图像下载到本地。
from paddleocr import TextImageUnwarping
model = TextImageUnwarping(model_name="UVDoc")
output = model.predict("SfMVKd0xnMII5KBDV6Mfz.jpeg", batch_size=1)
for res in output:
res.print()
res.save_to_img(save_path="./output/")
res.save_to_json(save_path="./output/res.json")
运行后,得到的结果如下:
{'res': {'input_path': 'doc_test.jpg', 'page_index': None, 'doctr_img': '...'}}
可视化图像如下:

使用命令和参数说明的详细信息,请参考文档。
管道使用
单个模型的能力是有限的。但由多个模型组成的管道可以提供更强的能力,以解决现实场景中的难题。
PP-StructureV3
布局分析是一种从文档图像中提取结构化信息的技术。PP-StructureV3包括以下六个模块:
- 布局检测模块
- 通用OCR子管道
- 文档图像预处理子管道(可选)
- 表格识别子管道(可选)
- 印章识别子管道(可选)
- 公式识别子管道(可选)
你可以使用单个命令快速体验PP-StructureV3管道:
paddleocr pp_structurev3 --use_doc_unwarping True -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/KP10tiSZfAjMuwZUSLtRp.png
你只需几行代码就可以体验管道的推理。以PP-StructureV3管道为例:
from paddleocr import PPStructureV3
pipeline = PPStructureV3(use_doc_unwarping=True)
output = pipeline.predict("./KP10tiSZfAjMuwZUSLtRp.png")
for res in output:
res.print()
res.save_to_json(save_path="output")
res.save_to_markdown(save_path="output")
使用命令和参数说明的详细信息,请参考文档。
📚 详细文档
属性 |
详情 |
模型类型 |
UVDoc |
CER |
0.179 |
注意:测试数据集为docunet基准数据集。
📄 许可证
本项目采用Apache-2.0许可证。
🔗 链接