PP-LCNet_x1_0_doc_ori開源模型 - 精準區分校正文檔圖像方向，提升OCR準確性

首頁

PP LCNet X1 0 Doc Ori

由PaddlePaddle開發

文檔圖像方向分類模塊，用於區分文檔圖像的方向並通過後處理進行校正，提高OCR處理的準確性。

圖像分類支持多種語言開源協議:Apache-2.0 #文檔方向分類 #OCR預處理 #高精度分類

下載量 9,506

發布時間 : 6/6/2025

模型概述

該模型主要用於識別文檔圖像的方向（0°、90°、180°、270°），並在文檔掃描或身份證照片拍攝等場景中自動校正方向，以提升OCR處理的準確率。

模型特點

高準確率

模型在文檔圖像方向分類任務上的平均準確率達到99.06%。

輕量化

模型存儲大小僅為7M，適合在資源受限的環境中部署。

易集成

支持通過PaddleOCR快速集成到現有OCR流程中，提供便捷的API調用方式。

模型能力

文檔圖像方向分類

圖像方向校正

OCR預處理

使用案例

文檔處理

文檔掃描方向校正

在文檔掃描過程中自動識別並校正圖像方向，確保後續OCR處理的準確性。

校正後的圖像方向準確率高達99.06%。

身份證照片方向識別

自動識別身份證照片的方向，並進行校正，便於後續的信息提取。

提升身份證OCR識別的準確率。

🚀 PP-LCNet_x1_0_doc_ori

文檔圖像方向分類模塊主要用於區分文檔圖像的方向，並通過後處理對其進行校正。在文檔掃描或身份證照片拍攝等過程中，為了獲得更清晰的圖像，設備可能會被旋轉，從而導致圖像出現各種方向。標準的OCR流程可能無法有效處理這些圖像。通過利用圖像分類技術，可以預先確定包含文本區域的文檔或身份證的方向並進行調整，從而提高OCR處理的準確性。

📦 安裝指南

1. 安裝PaddlePaddle

請參考以下命令，使用pip安裝PaddlePaddle：

# 適用於CUDA11.8
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

# 適用於CUDA12.6
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

# 適用於CPU
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

PaddlePaddle安裝的詳細信息，請參考PaddlePaddle官方網站。

2. 安裝PaddleOCR

從PyPI安裝最新版本的PaddleOCR推理包：

python -m pip install paddleocr

💻 使用示例

基礎用法

你可以使用單條命令快速體驗其功能：

paddleocr doc_img_orientation_classification \
    --model_name PP-LCNet_x1_0_doc_ori \
    -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/4ifXaBJmFByG_mAnF86Vv.png

你也可以將文本識別模塊的模型推理集成到你的項目中。在運行以下代碼之前，請將示例圖像下載到本地機器。

from paddleocr import DocImgOrientationClassification
model = DocImgOrientationClassification(model_name="PP-LCNet_x1_0_doc_ori")
output = model.predict(input="4ifXaBJmFByG_mAnF86Vv.png", batch_size=1)
for res in output:
    res.print()
    res.save_to_img(save_path="./output/")
    res.save_to_json(save_path="./output/res.json")

運行後，得到的結果如下：

{'res': {'input_path': '/root/.paddlex/predict_input/4ifXaBJmFByG_mAnF86Vv.png', 'page_index': None, 'class_ids': array([2], dtype=int32), 'scores': array([0.90971], dtype=float32), 'label_names': ['180']}}

可視化圖像如下： image/jpeg 使用命令和參數說明的詳細信息，請參考文檔。

高級用法

單個模型的能力是有限的。但是由多個模型組成的管道可以提供更多的能力來解決現實場景中的難題。

doc_preprocessor

文檔圖像預處理管道集成了兩個關鍵功能：文檔方向分類和幾何畸變校正。文檔方向分類模塊自動識別文檔的四種可能方向（0°、90°、180°、270°），確保文檔以正確的方向進行處理。文本圖像去畸變模型旨在校正文檔拍攝或掃描過程中出現的幾何畸變，恢復文檔的原始形狀和比例。此管道適用於數字文檔管理、OCR預處理任務以及任何需要提高文檔圖像質量的場景。通過自動進行方向校正和幾何畸變校正，該模塊顯著提高了文檔處理的準確性和效率，為圖像分析提供了更可靠的基礎。該管道還提供了靈活的面向服務的部署選項，支持在多個硬件平臺上使用各種編程語言進行調用。此外，該管道支持二次開發，允許你在自己的數據集上對模型進行微調，並無縫集成訓練好的模型。管道中有2個模塊：

文檔圖像方向分類模塊（可選）
文本圖像去畸變模塊（可選）

運行單條命令快速體驗OCR管道：

paddleocr doc_preprocessor -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/pY6sY6wLDuoHF1-cGUvDr.png \
    --use_doc_orientation_classify True \
    --use_doc_unwarping True \
    --doc_orientation_classify_model_name PP-LCNet_x1_0_doc_ori \
    --save_path ./output \
    --device gpu:0

結果會打印到終端：

{'res': {'input_path': '/root/.paddlex/predict_input/pY6sY6wLDuoHF1-cGUvDr.png', 'page_index': None, 'model_settings': {'use_doc_orientation_classify': True, 'use_doc_unwarping': True}, 'angle': 180}}

如果指定了save_path，可視化結果將保存到save_path下。可視化輸出如下： image/jpeg 命令行方法適用於快速體驗。對於項目集成，也只需要幾行代碼：

from paddleocr import DocPreprocessor  

ocr = DocPreprocessor(
    doc_orientation_classify_model_name="PP-LCNet_x1_0_doc_ori",
    use_doc_orientation_classify=True, # 使用use_doc_orientation_classify啟用/禁用文檔方向分類模型
    use_doc_unwarping=True, # 使用use_doc_unwarping啟用/禁用文檔去畸變模塊
    device="gpu:0", # 使用device指定GPU進行模型推理
)
result = ocr.predict("https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/pY6sY6wLDuoHF1-cGUvDr.png")  
for res in result:  
    res.print()  
    res.save_to_img("output")  
    res.save_to_json("output")

📚 詳細文檔

屬性	詳情
模型類型	基於PP-LCNet_x1_0的文檔圖像分類模型，有四個類別：0°、90°、180°和270°
識別平均準確率(%)	99.06
模型存儲大小 (M)	7