🚀 UVDoc
UVDocは主にテキスト画像に対して幾何変換を行い、画像内の文書の歪み、傾き、透視変形などの問題を修正することで、後続のテキスト認識の精度を向上させます。
🚀 クイックスタート
📦 インストール
1. PaddlePaddleのインストール
以下のコマンドを参考に、pipを使用してPaddlePaddleをインストールしてください。
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddleのインストールの詳細情報については、PaddlePaddle公式サイトを参照してください。
2. PaddleOCRのインストール
PyPIから最新バージョンのPaddleOCR推論パッケージをインストールします。
python -m pip install paddleocr
💻 使用例
基本的な使用法
単一のコマンドでこの機能をすぐに試すことができます。
paddleocr text_image_unwarping --model_name UVDoc -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/SfMVKd0xnMII5KBDV6Mfz.jpeg
高度な使用法
TextImageUnwarpingモジュールのモデル推論をあなたのプロジェクトに統合することもできます。以下のコードを実行する前に、サンプル画像をローカルにダウンロードしてください。
from paddleocr import TextImageUnwarping
model = TextImageUnwarping(model_name="UVDoc")
output = model.predict("SfMVKd0xnMII5KBDV6Mfz.jpeg", batch_size=1)
for res in output:
res.print()
res.save_to_img(save_path="./output/")
res.save_to_json(save_path="./output/res.json")
実行後、得られる結果は次の通りです。
{'res': {'input_path': 'doc_test.jpg', 'page_index': None, 'doctr_img': '...'}}
可視化画像は次の通りです。

コマンドとパラメータの説明の詳細情報については、ドキュメントを参照してください。
パイプラインの使用
単一のモデルの能力には限界があります。しかし、複数のモデルで構成されるパイプラインは、現実のシーンでの難題を解決するためのより強力な能力を提供することができます。
PP-StructureV3
レイアウト分析は、文書画像から構造化情報を抽出する技術です。PP-StructureV3は以下の6つのモジュールを含みます。
- レイアウト検出モジュール
- 汎用OCRサブパイプライン
- 文書画像前処理サブパイプライン(オプション)
- 表認識サブパイプライン(オプション)
- 印章認識サブパイプライン(オプション)
- 数式認識サブパイプライン(オプション)
単一のコマンドでPP-StructureV3パイプラインをすぐに試すことができます。
paddleocr pp_structurev3 --use_doc_unwarping True -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/KP10tiSZfAjMuwZUSLtRp.png
数行のコードでパイプラインの推論を試すことができます。PP-StructureV3パイプラインを例にとると、
from paddleocr import PPStructureV3
pipeline = PPStructureV3(use_doc_unwarping=True)
output = pipeline.predict("./KP10tiSZfAjMuwZUSLtRp.png")
for res in output:
res.print()
res.save_to_json(save_path="output")
res.save_to_markdown(save_path="output")
コマンドとパラメータの説明の詳細情報については、ドキュメントを参照してください。
📚 ドキュメント
属性 |
詳細 |
モデルタイプ |
UVDoc |
CER |
0.179 |
注意:テストデータセットはdocunetベンチマークデータセットです。
📄 ライセンス
このプロジェクトはApache-2.0ライセンスを採用しています。
🔗 リンク