UVDoc開源模型 - 糾正文本圖像扭曲傾斜，提升文本識別準確性

首頁

Uvdoc

由PaddlePaddle開發

UVDoc主要用於對文本圖像進行幾何變換，以糾正圖像中文檔的扭曲、傾斜、透視變形等問題，從而提高後續文本識別的準確性。

文字識別支持多種語言開源協議:Apache-2.0 #文檔圖像矯正 #幾何變形糾正 #OCR預處理

下載量 8,072

發布時間 : 6/6/2025

模型概述

UVDoc是一個文檔圖像矯正模型，能夠處理文檔圖像的幾何變形問題，如扭曲、傾斜和透視變形，優化後續的文本識別流程。

模型特點

幾何變換矯正

能夠自動檢測並矯正文檔圖像中的扭曲、傾斜和透視變形問題。

集成PaddleOCR

與PaddleOCR無縫集成，可作為OCR預處理步驟提升識別準確率。

管道化處理

支持作為PP-StructureV3文檔分析管道的預處理模塊，提供端到端解決方案。

模型能力

文檔圖像矯正

文本識別預處理

幾何變形修復

使用案例

文檔數字化

掃描文檔矯正

對掃描儀或手機拍攝的扭曲文檔進行自動矯正

CER 0.179（DocUNet基準數據集）

OCR預處理

作為OCR系統的前置處理模塊提升識別準確率

結構化文檔分析

PP-StructureV3集成

作為文檔分析管道的預處理步驟

提升表格/公式等結構化元素的識別精度

🚀 UVDoc

UVDoc主要用於對文本圖像進行幾何變換，以糾正圖像中文檔的扭曲、傾斜、透視變形等問題，從而提高後續文本識別的準確性。

🚀 快速開始

📦 安裝指南

1. 安裝PaddlePaddle

請參考以下命令，使用pip安裝PaddlePaddle：

# 適用於CUDA11.8
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

# 適用於CUDA12.6
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

# 適用於CPU
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

PaddlePaddle安裝的詳細信息，請參考PaddlePaddle官方網站。

2. 安裝PaddleOCR

從PyPI安裝最新版本的PaddleOCR推理包：

python -m pip install paddleocr

💻 使用示例

基礎用法

你可以使用單個命令快速體驗該功能：

paddleocr text_image_unwarping --model_name UVDoc -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/SfMVKd0xnMII5KBDV6Mfz.jpeg

高級用法

你也可以將TextImageUnwarping模塊的模型推理集成到你的項目中。在運行以下代碼之前，請將示例圖像下載到本地。

from paddleocr import TextImageUnwarping

model = TextImageUnwarping(model_name="UVDoc")
output = model.predict("SfMVKd0xnMII5KBDV6Mfz.jpeg", batch_size=1)
for res in output:
    res.print()
    res.save_to_img(save_path="./output/")
    res.save_to_json(save_path="./output/res.json")

運行後，得到的結果如下：

{'res': {'input_path': 'doc_test.jpg', 'page_index': None, 'doctr_img': '...'}}

可視化圖像如下： image/jpeg

使用命令和參數說明的詳細信息，請參考文檔。

管道使用

單個模型的能力是有限的。但由多個模型組成的管道可以提供更強的能力，以解決現實場景中的難題。

PP-StructureV3

佈局分析是一種從文檔圖像中提取結構化信息的技術。PP-StructureV3包括以下六個模塊：

佈局檢測模塊
通用OCR子管道
文檔圖像預處理子管道（可選）
表格識別子管道（可選）
印章識別子管道（可選）
公式識別子管道（可選）

你可以使用單個命令快速體驗PP-StructureV3管道：

paddleocr pp_structurev3 --use_doc_unwarping True -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/KP10tiSZfAjMuwZUSLtRp.png

你只需幾行代碼就可以體驗管道的推理。以PP-StructureV3管道為例：

from paddleocr import PPStructureV3

pipeline = PPStructureV3(use_doc_unwarping=True) # 使用use_doc_unwarping來啟用/禁用文檔矯正模塊
output = pipeline.predict("./KP10tiSZfAjMuwZUSLtRp.png")
for res in output:
    res.print() ## 打印結構化預測輸出
    res.save_to_json(save_path="output") ## 以JSON格式保存當前圖像的結構化結果
    res.save_to_markdown(save_path="output") ## 以Markdown格式保存當前圖像的結果