PP-OCRv4_server_seal_detオープンソースモデル - サーバーデプロイで印鑑テキスト検出の難題を的確に解決

ホーム

PP OCRv4 Server Seal Det

PaddlePaddleによって開発

PP - OCRv4のサーバー側の印章テキスト検出モデルで、高い精度を持ち、サーバーデプロイに適しており、印章テキスト検出の難題を効果的に解決できます。

文字認識複数言語対応オープンソースライセンス:Apache-2.0 #高精度な印章検出 #サーバーレベルのデプロイ #文書処理専用

ダウンロード数 1,013

リリース時間 : 6/5/2025

モデル概要

このモデルはPaddleOCRシリーズのサーバー側の印章テキスト検出モデルで、文書や画像から印章テキストを検出することに特化し、文書処理などのシーンにサポートを提供します。

モデル特徴

高い精度

重要な精度指標であるHmeanが98.21%に達し、円形印章画像検出で優れた性能を発揮します。

サーバー側デプロイ

性能の良いサーバー向けに設計されており、高性能が必要なシーンに適しています。

柔軟な統合

コマンドラインでの迅速な体験やプロジェクトへの統合をサポートし、使用方法が多様です。

パイプライン能力

他のモジュールとパイプラインを構成でき、複雑な現実シーンの問題を解決できます。

モデル能力

印章テキスト検出

文書処理

画像分析

使用事例

文書処理

契約書照合

契約書内の印章テキストを自動検出し、契約書の照合と検証に使用します。

契約書処理の精度と効率を向上させます。

請求書経費精算審査

請求書上の印章内容を認識し、財務審査プロセスを支援します。

精算プロセスを簡素化し、人手による審査時間を削減します。

倉庫入出庫審査

入出庫伝票内の印章情報を検出し、伝票の真実性を保証します。

倉庫管理の自動化レベルを向上させます。

🚀 PP-OCRv4_server_seal_det

PP-OCRv4のサーバーサイドの印章テキスト検出モデルは、より高い精度を持ち、良好な構成のサーバーにデプロイするのに適しています。このモデルは、印章テキスト検出の難題を効果的に解決し、文書処理などのシナリオで正確な印章テキスト認識サポートを提供します。

🚀 クイックスタート

📦 インストール

1. PaddlePaddleのインストール

以下のコマンドを参考に、pipを使用してPaddlePaddleをインストールしてください。

# CUDA11.8に適用
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

# CUDA12.6に適用
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

# CPUに適用
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

PaddlePaddleのインストールの詳細情報は、PaddlePaddle公式サイトを参照してください。

2. PaddleOCRのインストール

PyPIから最新バージョンのPaddleOCR推論パッケージをインストールします。

python -m pip install paddleocr

💻 使用例

基本的な使用法

1つのコマンドでこの機能をすぐに体験できます。

paddleocr seal_text_detection \
    --model_name PP-OCRv4_server_seal_det \
    -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/k02u35x60XZmaL9hzeQ0T.png

また、印章テキスト検出モジュールのモデル推論をあなたのプロジェクトに統合することもできます。以下のコードを実行する前に、サンプル画像をローカルにダウンロードしてください。

from paddleocr import SealTextDetection
model = SealTextDetection(model_name="PP-OCRv4_server_seal_det")
output = model.predict(input="k02u35x60XZmaL9hzeQ0T.png", batch_size=1)
for res in output:
    res.print()
    res.save_to_img(save_path="./output/")
    res.save_to_json(save_path="./output/res.json")

実行後、次のような結果が得られます。

{'res': {'input_path': 'k02u35x60XZmaL9hzeQ0T.png', 'page_index': None, 'dt_polys': [array([[165, 469],
       ...,
       [161, 466]]), array([[444, 444],
       ...,
       [441, 443]]), array([[466, 346],
       ...,
       [462, 345]]), array([[324,  38],
       ...,
       [320,  37]])], 'dt_scores': [0.989991263358307, 0.9934761181445114, 0.9916670610495292, 0.9857514344934838]}}

可視化後の画像は次の通りです。 image/jpeg

コマンドとパラメータの説明の詳細情報は、ドキュメントを参照してください。

高度な使用法

単一のモデルの能力には限界がありますが、複数のモデルで構成されるパイプラインは、より強力な能力を提供し、現実のシナリオでの難題を解決することができます。

印章テキスト認識パイプライン

印章テキスト認識は、文書や画像から自動的に印章内容を抽出して認識する技術です。印章テキスト認識は文書処理の一部であり、契約照合、倉庫入出庫審査、請求書経費精査など、さまざまなシナリオで多くの応用があります。このパイプラインには5つのモジュールが含まれています。

印章テキスト検出モジュール
テキスト認識モジュール
レイアウト検出モジュール（オプション）
文書画像方向分類モジュール（オプション）
テキスト画像矯正モジュール（オプション）

以下のコマンドを実行して、OCRパイプラインをすぐに体験してください。

paddleocr seal_recognition -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/k02u35x60XZmaL9hzeQ0T.png \
    --seal_text_detection_model_name PP-OCRv4_server_seal_det \
    --use_doc_orientation_classify False \
    --use_doc_unwarping False \
    --save_path ./output \
    --device gpu:0

結果はターミナルに表示されます。

{'res': {'input_path': '/root/.paddlex/predict_input/k02u35x60XZmaL9hzeQ0T.png', 'model_settings': {'use_doc_preprocessor': True, 'use_layout_detection': True}, 'doc_preprocessor_res': {'input_path': None, 'page_index': None, 'model_settings': {'use_doc_orientation_classify': False, 'use_doc_unwarping': False}, 'angle': -1}, 'layout_det_res': {'input_path': None, 'page_index': None, 'boxes': [{'cls_id': 16, 'label': 'seal', 'score': 0.9755404591560364, 'coordinate': [6.19458, 0.17910767, 634.38385, 628.8424]}]}, 'seal_res_list': [{'input_path': None, 'page_index': None, 'model_settings': {'use_doc_preprocessor': False, 'use_textline_orientation': False}, 'dt_polys': [array([[320,  38],
       ...,
       [315,  38]]), array([[461, 347],
       ...,
       [456, 346]]), array([[439, 445],
       ...,
       [434, 444]]), array([[158, 468],
       ...,
       [154, 466]])], 'text_det_params': {'limit_side_len': 736, 'limit_type': 'min', 'thresh': 0.2, 'max_side_limit': 4000, 'box_thresh': 0.6, 'unclip_ratio': 0.5}, 'text_type': 'seal', 'textline_orientation_angles': array([-1, ..., -1]), 'text_rec_score_thresh': 0, 'rec_texts': ['天津君和缘商贸有限公司', '发票专用章', '吗繁物', '5263647368706'], 'rec_scores': array([0.99340463, ..., 0.9916274 ]), 'rec_polys': [array([[320,  38],
       ...,
       [315,  38]]), array([[461, 347],
       ...,
       [456, 346]]), array([[439, 445],
       ...,
       [434, 444]]), array([[158, 468],
       ...,
       [154, 466]])], 'rec_boxes': array([], dtype=float64)}]}}

save_pathを指定した場合、可視化結果はsave_path以下に保存されます。可視化出力は次の通りです。 image/jpeg

コマンドライン方式は、すぐに体験するのに適しています。プロジェクトへの統合については、数行のコードで済みます。

from paddleocr import PaddleOCR  

ocr = PaddleOCR(
    seal_text_detection_model_name="PP-OCRv4_server_seal_det",
    use_doc_orientation_classify=False, # use_doc_orientation_classifyを使用して文書方向分類モデルを有効/無効にする
    use_doc_unwarping=False, # use_doc_unwarpingを使用して文書矯正モジュールを有効/無効にする
    device="gpu:0", # deviceを使用してGPUを指定してモデル推論を行う
)
result = ocr.predict("https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/k02u35x60XZmaL9hzeQ0T.png")  
for res in result:  
    res.print()  
    res.save_to_img("output")  
    res.save_to_json("output")