PP-LCNet_x1_0_doc_oriオープンソースモデル - 文書画像の方向を正確に区別して校正し、OCRの精度を向上させる

ホーム

PP LCNet X1 0 Doc Ori

PaddlePaddleによって開発

文書画像の方向分類モジュールで、文書画像の方向を区別し、後処理で校正し、OCR処理の精度を向上させます。

画像分類複数言語対応オープンソースライセンス:Apache-2.0 #文書方向分類 #OCR前処理 #高精度分類

ダウンロード数 9,506

リリース時間 : 6/6/2025

モデル概要

このモデルは主に文書画像の方向（0°、90°、180°、270°）を識別し、文書スキャンや身分証写真撮影などのシーンで自動的に方向を校正し、OCR処理の精度を向上させます。

モデル特徴

高い精度

モデルは文書画像方向分類タスクでの平均精度が99.06%に達します。

軽量化

モデルの保存サイズはわずか7Mで、リソースが制限された環境でのデプロイに適しています。

統合が容易

PaddleOCRを通じて既存のOCRフローに迅速に統合でき、便利なAPI呼び出し方式を提供します。

モデル能力

文書画像方向分類

画像方向校正

OCR前処理

使用事例

文書処理

文書スキャン方向校正

文書スキャン中に自動的に画像の方向を識別して校正し、後続のOCR処理の精度を保証します。

校正後の画像方向の精度は99.06%に達します。

身分証写真方向識別

身分証写真の方向を自動的に識別して校正し、後続の情報抽出を容易にします。

身分証OCR識別の精度を向上させます。

🚀 PP-LCNet_x1_0_doc_ori

ドキュメント画像方向分類モジュールは、主にドキュメント画像の方向を識別し、後処理によって方向を校正するために使用されます。ドキュメントのスキャンや身分証の写真撮影などの過程で、より鮮明な画像を得るためにデバイスを回転させることがあり、その結果、画像が様々な方向になることがあります。標準的なOCRプロセスでは、これらの画像を効果的に処理できない場合があります。画像分類技術を利用することで、テキスト領域を含むドキュメントや身分証の方向を事前に特定して調整し、OCR処理の精度を向上させることができます。

🚀 クイックスタート

このドキュメント画像方向分類モジュールを使用することで、ドキュメント画像の方向を正確に識別し、校正することができます。以下に、インストールと使用方法の詳細を説明します。

📦 インストール

1. PaddlePaddleのインストール

以下のコマンドを参考に、pipを使用してPaddlePaddleをインストールしてください。

# CUDA11.8用
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

# CUDA12.6用
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

# CPU用
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

PaddlePaddleのインストールの詳細情報については、PaddlePaddle公式サイトを参照してください。

2. PaddleOCRのインストール

PyPIから最新バージョンのPaddleOCR推論パッケージをインストールします。

python -m pip install paddleocr

💻 使用例

基本的な使用法

単一のコマンドで機能をすぐに試すことができます。

paddleocr doc_img_orientation_classification \
    --model_name PP-LCNet_x1_0_doc_ori \
    -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/4ifXaBJmFByG_mAnF86Vv.png

また、テキスト認識モジュールのモデル推論をあなたのプロジェクトに統合することもできます。以下のコードを実行する前に、サンプル画像をローカルマシンにダウンロードしてください。

from paddleocr import DocImgOrientationClassification
model = DocImgOrientationClassification(model_name="PP-LCNet_x1_0_doc_ori")
output = model.predict(input="4ifXaBJmFByG_mAnF86Vv.png", batch_size=1)
for res in output:
    res.print()
    res.save_to_img(save_path="./output/")
    res.save_to_json(save_path="./output/res.json")

実行後の結果は以下の通りです。

{'res': {'input_path': '/root/.paddlex/predict_input/4ifXaBJmFByG_mAnF86Vv.png', 'page_index': None, 'class_ids': array([2], dtype=int32), 'scores': array([0.90971], dtype=float32), 'label_names': ['180']}}

可視化された画像は以下の通りです。 image/jpeg コマンドとパラメータの説明の詳細については、ドキュメントを参照してください。

高度な使用法

単一のモデルの能力には限界があります。しかし、複数のモデルから構成されるパイプラインは、現実のシーンでの難題を解決するためのより多くの機能を提供することができます。

doc_preprocessor

ドキュメント画像前処理パイプラインは、ドキュメント方向分類と幾何学的歪み校正という2つの重要な機能を統合しています。ドキュメント方向分類モジュールは、ドキュメントの4つの可能な方向（0°、90°、180°、270°）を自動的に識別し、ドキュメントが正しい方向で処理されることを保証します。テキスト画像歪み補正モデルは、ドキュメントの撮影またはスキャン中に発生する幾何学的歪みを校正し、ドキュメントの元の形状と比率を復元することを目的としています。このパイプラインは、デジタルドキュメント管理、OCR前処理タスク、およびドキュメント画像品質を向上させる必要があるすべてのシーンに適しています。自動的に方向校正と幾何学的歪み校正を行うことで、このモジュールはドキュメント処理の精度と効率を大幅に向上させ、画像分析により信頼性の高い基盤を提供します。このパイプラインはまた、柔軟なサービス指向のデプロイオプションを提供し、複数のハードウェアプラットフォームで様々なプログラミング言語を使用して呼び出すことができます。さらに、このパイプラインは二次開発をサポートしており、独自のデータセットでモデルを微調整し、学習済みモデルをシームレスに統合することができます。パイプラインには2つのモジュールがあります。

ドキュメント画像方向分類モジュール（オプション）
テキスト画像歪み補正モジュール（オプション）

単一のコマンドでOCRパイプラインをすぐに試すことができます。

paddleocr doc_preprocessor -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/pY6sY6wLDuoHF1-cGUvDr.png \
    --use_doc_orientation_classify True \
    --use_doc_unwarping True \
    --doc_orientation_classify_model_name PP-LCNet_x1_0_doc_ori \
    --save_path ./output \
    --device gpu:0

結果はターミナルに表示されます。

{'res': {'input_path': '/root/.paddlex/predict_input/pY6sY6wLDuoHF1-cGUvDr.png', 'page_index': None, 'model_settings': {'use_doc_orientation_classify': True, 'use_doc_unwarping': True}, 'angle': 180}}

save_pathを指定した場合、可視化結果はsave_pathに保存されます。可視化出力は以下の通りです。 image/jpeg コマンドライン方式はすぐに試すのに適しています。プロジェクトへの統合には、数行のコードで済みます。

from paddleocr import DocPreprocessor  

ocr = DocPreprocessor(
    doc_orientation_classify_model_name="PP-LCNet_x1_0_doc_ori",
    use_doc_orientation_classify=True, # use_doc_orientation_classifyを使用してドキュメント方向分類モデルを有効/無効にする
    use_doc_unwarping=True, # use_doc_unwarpingを使用してドキュメント歪み補正モジュールを有効/無効にする
    device="gpu:0", # deviceを使用してGPUでモデル推論を行う
)
result = ocr.predict("https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/pY6sY6wLDuoHF1-cGUvDr.png")  
for res in result:  
    res.print()  
    res.save_to_img("output")  
    res.save_to_json("output")

📚 ドキュメント

属性	詳細
モデルタイプ	PP-LCNet_x1_0に基づくドキュメント画像分類モデルで、4つのクラスがあります：0°、90°、180°、270°
識別平均精度(%)	99.06
モデル保存サイズ (M)	7