UVDocオープンソースモデル - テキスト画像の歪みや傾きを修正し、テキスト認識の精度を向上させる

ホーム

Uvdoc

PaddlePaddleによって開発

UVDocは主にテキスト画像に対して幾何変換を行い、画像中の文書の歪み、傾き、透視変形などの問題を修正し、後続のテキスト認識の精度を向上させます。

文字認識複数言語対応オープンソースライセンス:Apache-2.0 #文書画像矯正 #幾何変形修正 #OCR前処理

ダウンロード数 8,072

リリース時間 : 6/6/2025

モデル概要

UVDocは文書画像矯正モデルで、文書画像の幾何変形問題（歪み、傾き、透視変形など）を処理し、後続のテキスト認識プロセスを最適化します。

モデル特徴

幾何変換矯正

文書画像中の歪み、傾き、透視変形問題を自動的に検出して矯正できます。

PaddleOCRとの統合

PaddleOCRとシームレスに統合され、OCR前処理ステップとして認識精度を向上させることができます。

パイプライン処理

PP - StructureV3文書分析パイプラインの前処理モジュールとしてサポートされ、エンドツーエンドのソリューションを提供します。

モデル能力

文書画像矯正

テキスト認識前処理

幾何変形修復

使用事例

文書デジタル化

スキャン文書矯正

スキャナーまたは携帯電話で撮影した歪んだ文書を自動的に矯正します。

CER 0.179（DocUNet基準データセット）

OCR前処理

OCRシステムの前置処理モジュールとして認識精度を向上させます。

構造化文書分析

PP - StructureV3との統合

文書分析パイプラインの前処理ステップとして機能します。

表/数式などの構造化要素の認識精度を向上させます。

🚀 UVDoc

UVDocは主にテキスト画像に対して幾何変換を行い、画像内の文書の歪み、傾き、透視変形などの問題を修正することで、後続のテキスト認識の精度を向上させます。

🚀 クイックスタート

📦 インストール

1. PaddlePaddleのインストール

以下のコマンドを参考に、pipを使用してPaddlePaddleをインストールしてください。

# CUDA11.8に適用
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

# CUDA12.6に適用
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

# CPUに適用
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

PaddlePaddleのインストールの詳細情報については、PaddlePaddle公式サイトを参照してください。

2. PaddleOCRのインストール

PyPIから最新バージョンのPaddleOCR推論パッケージをインストールします。

python -m pip install paddleocr

💻 使用例

基本的な使用法

単一のコマンドでこの機能をすぐに試すことができます。

paddleocr text_image_unwarping --model_name UVDoc -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/SfMVKd0xnMII5KBDV6Mfz.jpeg

高度な使用法

TextImageUnwarpingモジュールのモデル推論をあなたのプロジェクトに統合することもできます。以下のコードを実行する前に、サンプル画像をローカルにダウンロードしてください。

from paddleocr import TextImageUnwarping

model = TextImageUnwarping(model_name="UVDoc")
output = model.predict("SfMVKd0xnMII5KBDV6Mfz.jpeg", batch_size=1)
for res in output:
    res.print()
    res.save_to_img(save_path="./output/")
    res.save_to_json(save_path="./output/res.json")

実行後、得られる結果は次の通りです。

{'res': {'input_path': 'doc_test.jpg', 'page_index': None, 'doctr_img': '...'}}

可視化画像は次の通りです。 image/jpeg

コマンドとパラメータの説明の詳細情報については、ドキュメントを参照してください。

パイプラインの使用

単一のモデルの能力には限界があります。しかし、複数のモデルで構成されるパイプラインは、現実のシーンでの難題を解決するためのより強力な能力を提供することができます。

PP-StructureV3

レイアウト分析は、文書画像から構造化情報を抽出する技術です。PP-StructureV3は以下の6つのモジュールを含みます。

レイアウト検出モジュール
汎用OCRサブパイプライン
文書画像前処理サブパイプライン（オプション）
表認識サブパイプライン（オプション）
印章認識サブパイプライン（オプション）
数式認識サブパイプライン（オプション）

単一のコマンドでPP-StructureV3パイプラインをすぐに試すことができます。

paddleocr pp_structurev3 --use_doc_unwarping True -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/KP10tiSZfAjMuwZUSLtRp.png

数行のコードでパイプラインの推論を試すことができます。PP-StructureV3パイプラインを例にとると、

from paddleocr import PPStructureV3

pipeline = PPStructureV3(use_doc_unwarping=True) # use_doc_unwarpingを使用して文書補正モジュールを有効/無効にする
output = pipeline.predict("./KP10tiSZfAjMuwZUSLtRp.png")
for res in output:
    res.print() ## 構造化予測出力を印刷する
    res.save_to_json(save_path="output") ## 現在の画像の構造化結果をJSON形式で保存する
    res.save_to_markdown(save_path="output") ## 現在の画像の結果をMarkdown形式で保存する