🚀 PP-LCNet_x1_0_doc_ori
ドキュメント画像方向分類モジュールは、主にドキュメント画像の方向を識別し、後処理によって方向を校正するために使用されます。ドキュメントのスキャンや身分証の写真撮影などの過程で、より鮮明な画像を得るためにデバイスを回転させることがあり、その結果、画像が様々な方向になることがあります。標準的なOCRプロセスでは、これらの画像を効果的に処理できない場合があります。画像分類技術を利用することで、テキスト領域を含むドキュメントや身分証の方向を事前に特定して調整し、OCR処理の精度を向上させることができます。
🚀 クイックスタート
このドキュメント画像方向分類モジュールを使用することで、ドキュメント画像の方向を正確に識別し、校正することができます。以下に、インストールと使用方法の詳細を説明します。
📦 インストール
1. PaddlePaddleのインストール
以下のコマンドを参考に、pipを使用してPaddlePaddleをインストールしてください。
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddleのインストールの詳細情報については、PaddlePaddle公式サイトを参照してください。
2. PaddleOCRのインストール
PyPIから最新バージョンのPaddleOCR推論パッケージをインストールします。
python -m pip install paddleocr
💻 使用例
基本的な使用法
単一のコマンドで機能をすぐに試すことができます。
paddleocr doc_img_orientation_classification \
--model_name PP-LCNet_x1_0_doc_ori \
-i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/4ifXaBJmFByG_mAnF86Vv.png
また、テキスト認識モジュールのモデル推論をあなたのプロジェクトに統合することもできます。以下のコードを実行する前に、サンプル画像をローカルマシンにダウンロードしてください。
from paddleocr import DocImgOrientationClassification
model = DocImgOrientationClassification(model_name="PP-LCNet_x1_0_doc_ori")
output = model.predict(input="4ifXaBJmFByG_mAnF86Vv.png", batch_size=1)
for res in output:
res.print()
res.save_to_img(save_path="./output/")
res.save_to_json(save_path="./output/res.json")
実行後の結果は以下の通りです。
{'res': {'input_path': '/root/.paddlex/predict_input/4ifXaBJmFByG_mAnF86Vv.png', 'page_index': None, 'class_ids': array([2], dtype=int32), 'scores': array([0.90971], dtype=float32), 'label_names': ['180']}}
可視化された画像は以下の通りです。
コマンドとパラメータの説明の詳細については、ドキュメントを参照してください。
高度な使用法
単一のモデルの能力には限界があります。しかし、複数のモデルから構成されるパイプラインは、現実のシーンでの難題を解決するためのより多くの機能を提供することができます。
doc_preprocessor
ドキュメント画像前処理パイプラインは、ドキュメント方向分類と幾何学的歪み校正という2つの重要な機能を統合しています。ドキュメント方向分類モジュールは、ドキュメントの4つの可能な方向(0°、90°、180°、270°)を自動的に識別し、ドキュメントが正しい方向で処理されることを保証します。テキスト画像歪み補正モデルは、ドキュメントの撮影またはスキャン中に発生する幾何学的歪みを校正し、ドキュメントの元の形状と比率を復元することを目的としています。このパイプラインは、デジタルドキュメント管理、OCR前処理タスク、およびドキュメント画像品質を向上させる必要があるすべてのシーンに適しています。自動的に方向校正と幾何学的歪み校正を行うことで、このモジュールはドキュメント処理の精度と効率を大幅に向上させ、画像分析により信頼性の高い基盤を提供します。このパイプラインはまた、柔軟なサービス指向のデプロイオプションを提供し、複数のハードウェアプラットフォームで様々なプログラミング言語を使用して呼び出すことができます。さらに、このパイプラインは二次開発をサポートしており、独自のデータセットでモデルを微調整し、学習済みモデルをシームレスに統合することができます。パイプラインには2つのモジュールがあります。
- ドキュメント画像方向分類モジュール(オプション)
- テキスト画像歪み補正モジュール(オプション)
単一のコマンドでOCRパイプラインをすぐに試すことができます。
paddleocr doc_preprocessor -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/pY6sY6wLDuoHF1-cGUvDr.png \
--use_doc_orientation_classify True \
--use_doc_unwarping True \
--doc_orientation_classify_model_name PP-LCNet_x1_0_doc_ori \
--save_path ./output \
--device gpu:0
結果はターミナルに表示されます。
{'res': {'input_path': '/root/.paddlex/predict_input/pY6sY6wLDuoHF1-cGUvDr.png', 'page_index': None, 'model_settings': {'use_doc_orientation_classify': True, 'use_doc_unwarping': True}, 'angle': 180}}
save_path
を指定した場合、可視化結果はsave_path
に保存されます。可視化出力は以下の通りです。
コマンドライン方式はすぐに試すのに適しています。プロジェクトへの統合には、数行のコードで済みます。
from paddleocr import DocPreprocessor
ocr = DocPreprocessor(
doc_orientation_classify_model_name="PP-LCNet_x1_0_doc_ori",
use_doc_orientation_classify=True,
use_doc_unwarping=True,
device="gpu:0",
)
result = ocr.predict("https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/pY6sY6wLDuoHF1-cGUvDr.png")
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")
📚 ドキュメント
属性 |
詳細 |
モデルタイプ |
PP-LCNet_x1_0に基づくドキュメント画像分類モデルで、4つのクラスがあります:0°、90°、180°、270° |
識別平均精度(%) |
99.06 |
モデル保存サイズ (M) |
7 |
📄 ライセンス
このプロジェクトはApache-2.0ライセンスを採用しています。
🔗 関連リンク