PP-DocLayout_plus-Lオープンソース文書レイアウトモデル - 20種類の一般的な文書要素を高精度で位置特定

ホーム

PP DocLayout Plus L

PaddlePaddleによって開発

PP-DocLayout_plus-Lは高精度の文書レイアウト領域定位モデルで、RT-DETR-Lアーキテクチャに基づいて訓練され、20種類の一般的な文書要素の検出をサポートします。

文字認識複数言語対応オープンソースライセンス:Apache-2.0 #文書レイアウト検出 #多クラス定位 #高精度OCR前処理

ダウンロード数 1,308

リリース時間 : 6/6/2025

モデル概要

このモデルは文書画像のレイアウト分析に特化しており、文書内のタイトル、段落、表、数式などのさまざまな要素を正確に定位でき、中英混合文書の処理に適しています。

モデル特徴

多クラス検出

テキスト、タイトル、表、数式など20種類の文書要素の検出をサポートします。

高精度

独自のデータセットでmAP(0.5)指標が83.2%に達します。

広範な適用性

訓練データには論文、PPT、契約書、古書などのさまざまな文書タイプが含まれています。

モデル能力

文書レイアウト分析

表検出

数式検出

タイトル識別

テキスト領域定位

使用事例

文書処理

学術論文分析

論文中のタイトル、要約、参考文献などの構造を自動的に識別します。

構造化された論文内容を生成できます。

契約書解析

契約書内の重要な条項と署名領域を定位します。

契約書審査プロセスを支援します。

教育

試験用紙分析

試験用紙内の問題、解答領域を識別します。

自動採点システムを支援します。

🚀 PP-DocLayout_plus-L

PP-DocLayout_plus-L は高精度のレイアウト領域検出モデルです。このモデルは RT-DETR-L をベースに、独自のデータセットで学習されています。このデータセットには、中国語と英語の論文、PPT、多レイアウトの雑誌、契約書、書籍、試験用紙、古典書籍、研究報告書などが含まれています。このレイアウト検出モデルは 20 種類の一般的なカテゴリをカバーしており、文書のタイトル、段落タイトル、テキスト、ページ番号、要約、表、参考文献、脚注、ヘッダー、フッター、アルゴリズム、数式、数式番号、画像、表、印章、グラフタイトル、グラフ、サイドバーテキスト、参考文献リストなどがあります。

主要指標

モデル	mAP(0.5) (%)
PP-DocLayout_plus-L	83.2

注意：上記の精度指標は、独自のバージョンのサブ領域検出データセットで評価されています。このデータセットには、中国語と英語の論文、雑誌、新聞、研究報告書、PPT、試験用紙、教科書などの 1000 枚の文書タイプの画像が含まれています。

🚀 クイックスタート

📦 インストール

1. PaddlePaddle のインストール

以下のコマンドを参考に、pip を使用して PaddlePaddle をインストールしてください。

# CUDA11.8 用
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

# CUDA12.6 用
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

# CPU 用
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

PaddlePaddle のインストールの詳細については、PaddlePaddle 公式サイトを参照してください。

2. PaddleOCR のインストール

PyPI から最新バージョンの PaddleOCR 推論パッケージをインストールします。

python -m pip install paddleocr

💻 使用例

基本的な使用法

1 つのコマンドで機能をすぐに試すことができます。

paddleocr layout_detection \
    --model_name PP-DocLayout_plus-L \
    -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/N5C68HPVAI-xQAWTxpbA6.jpeg

また、レイアウト検出モジュールのモデル推論をあなたのプロジェクトに組み込むこともできます。以下のコードを実行する前に、サンプル画像をローカルマシンにダウンロードしてください。

from paddleocr import LayoutDetection

model = LayoutDetection(model_name="PP-DocLayout_plus-L")
output = model.predict("N5C68HPVAI-xQAWTxpbA6.jpeg", batch_size=1, layout_nms=True)
for res in output:
    res.print()
    res.save_to_img(save_path="./output/")
    res.save_to_json(save_path="./output/res.json")

実行後の結果は次のとおりです。

{'res': {'input_path': '/root/.paddlex/predict_input/N5C68HPVAI-xQAWTxpbA6.jpeg', 'page_index': None, 'boxes': [{'cls_id': 2, 'label': 'text', 'score': 0.9870168566703796, 'coordinate': [34.101395, 349.85275, 358.5929, 611.0788]}, {'cls_id': 2, 'label': 'text', 'score': 0.986599326133728, 'coordinate': [34.500305, 647.15753, 358.29437, 848.66925]}, {'cls_id': 2, 'label': 'text', 'score': 0.984662652015686, 'coordinate': [385.71417, 497.41037, 711.22656, 697.8426]}, {'cls_id': 8, 'label': 'table', 'score': 0.9841272234916687, 'coordinate': [73.76732, 105.94854, 321.95355, 298.85074]}, {'cls_id': 8, 'label': 'table', 'score': 0.983431875705719, 'coordinate': [436.95523, 105.81446, 662.71814, 313.4865]}, {'cls_id': 2, 'label': 'text', 'score': 0.9832285642623901, 'coordinate': [385.62766, 346.22888, 710.10205, 458.772]}, {'cls_id': 2, 'label': 'text', 'score': 0.9816107749938965, 'coordinate': [385.78085, 735.19293, 710.5613, 849.97656]}, {'cls_id': 6, 'label': 'figure_title', 'score': 0.9577467441558838, 'coordinate': [34.421764, 20.055021, 358.7124, 76.53721]}, {'cls_id': 6, 'label': 'figure_title', 'score': 0.9505674839019775, 'coordinate': [385.7235, 20.054104, 711.2928, 74.92819]}, {'cls_id': 0, 'label': 'paragraph_title', 'score': 0.9001894593238831, 'coordinate': [386.46353, 477.035, 699.4023, 490.07495]}, {'cls_id': 0, 'label': 'paragraph_title', 'score': 0.8846081495285034, 'coordinate': [35.413055, 627.7365, 185.58315, 640.522]}, {'cls_id': 0, 'label': 'paragraph_title', 'score': 0.8837621808052063, 'coordinate': [387.1759, 716.34235, 524.78345, 729.2588]}, {'cls_id': 0, 'label': 'paragraph_title', 'score': 0.8509567975997925, 'coordinate': [35.50049, 331.18472, 141.64497, 344.81168]}]}}

可視化画像は次のとおりです。 image/jpeg

コマンドとパラメータの詳細については、ドキュメントを参照してください。

高度な使用法

単一のモデルの能力には限界がありますが、複数のモデルで構成されるパイプラインは、現実のシナリオでの難題を解決するための強力な能力を提供します。

PP-StructureV3

レイアウト分析は、文書画像から構造化情報を抽出する技術です。PP-StructureV3 は以下の 6 つのモジュールで構成されています。

レイアウト検出モジュール
汎用 OCR サブパイプライン
文書画像前処理サブパイプライン（オプション）
表認識サブパイプライン（オプション）
印章認識サブパイプライン（オプション）
数式認識サブパイプライン（オプション）

1 つのコマンドで PP-StructureV3 パイプラインをすぐに試すことができます。

paddleocr pp_structurev3 -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/KP10tiSZfAjMuwZUSLtRp.png

数行のコードでパイプラインの推論を試すことができます。PP-StructureV3 パイプラインを例に説明します。

from paddleocr import PPStructureV3

pipeline = PPStructureV3()
# ocr = PPStructureV3(use_doc_orientation_classify=True) # use_doc_orientation_classify を使用して文書方向分類モデルを有効/無効にする
# ocr = PPStructureV3(use_doc_unwarping=True) # use_doc_unwarping を使用して文書歪み補正モジュールを有効/無効にする
# ocr = PPStructureV3(use_textline_orientation=True) # use_textline_orientation を使用してテキスト行方向分類モデルを有効/無効にする
# ocr = PPStructureV3(device="gpu") # device を使用して GPU でモデル推論を行う
output = pipeline.predict("./KP10tiSZfAjMuwZUSLtRp.png")
for res in output:
    res.print() ## 構造化予測出力を表示する
    res.save_to_json(save_path="output") ## 現在の画像の構造化結果を JSON 形式で保存する
    res.save_to_markdown(save_path="output") ## 現在の画像の結果を Markdown 形式で保存する