🚀 UVDoc
UVDoc主要用於對文本圖像進行幾何變換,以糾正圖像中文檔的扭曲、傾斜、透視變形等問題,從而提高後續文本識別的準確性。
🚀 快速開始
📦 安裝指南
1. 安裝PaddlePaddle
請參考以下命令,使用pip安裝PaddlePaddle:
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddle安裝的詳細信息,請參考PaddlePaddle官方網站。
2. 安裝PaddleOCR
從PyPI安裝最新版本的PaddleOCR推理包:
python -m pip install paddleocr
💻 使用示例
基礎用法
你可以使用單個命令快速體驗該功能:
paddleocr text_image_unwarping --model_name UVDoc -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/SfMVKd0xnMII5KBDV6Mfz.jpeg
高級用法
你也可以將TextImageUnwarping模塊的模型推理集成到你的項目中。在運行以下代碼之前,請將示例圖像下載到本地。
from paddleocr import TextImageUnwarping
model = TextImageUnwarping(model_name="UVDoc")
output = model.predict("SfMVKd0xnMII5KBDV6Mfz.jpeg", batch_size=1)
for res in output:
res.print()
res.save_to_img(save_path="./output/")
res.save_to_json(save_path="./output/res.json")
運行後,得到的結果如下:
{'res': {'input_path': 'doc_test.jpg', 'page_index': None, 'doctr_img': '...'}}
可視化圖像如下:

使用命令和參數說明的詳細信息,請參考文檔。
管道使用
單個模型的能力是有限的。但由多個模型組成的管道可以提供更強的能力,以解決現實場景中的難題。
PP-StructureV3
佈局分析是一種從文檔圖像中提取結構化信息的技術。PP-StructureV3包括以下六個模塊:
- 佈局檢測模塊
- 通用OCR子管道
- 文檔圖像預處理子管道(可選)
- 表格識別子管道(可選)
- 印章識別子管道(可選)
- 公式識別子管道(可選)
你可以使用單個命令快速體驗PP-StructureV3管道:
paddleocr pp_structurev3 --use_doc_unwarping True -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/KP10tiSZfAjMuwZUSLtRp.png
你只需幾行代碼就可以體驗管道的推理。以PP-StructureV3管道為例:
from paddleocr import PPStructureV3
pipeline = PPStructureV3(use_doc_unwarping=True)
output = pipeline.predict("./KP10tiSZfAjMuwZUSLtRp.png")
for res in output:
res.print()
res.save_to_json(save_path="output")
res.save_to_markdown(save_path="output")
使用命令和參數說明的詳細信息,請參考文檔。
📚 詳細文檔
屬性 |
詳情 |
模型類型 |
UVDoc |
CER |
0.179 |
注意:測試數據集為docunet基準數據集。
📄 許可證
本項目採用Apache-2.0許可證。
🔗 鏈接