🚀 PP-DocBlockLayout
PP-DocBlockLayout はレイアウトブロックの位置特定モデルです。このモデルは、独自に構築したデータセットを使用して訓練されており、そのデータセットには、中英語の論文、PPT、多レイアウトの雑誌、契約書、書籍、試験用紙、古書、研究報告など、様々な種類の文書が含まれています。このモデルは RT-DETR-L を使用して訓練されており、文書内のレイアウト領域を効果的に識別することができます。
🚀 クイックスタート
📦 インストール
1. PaddlePaddle のインストール
以下のコマンドを参考に、pip を使用して PaddlePaddle をインストールしてください。
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddle のインストールの詳細については、PaddlePaddle 公式ウェブサイトを参照してください。
2. PaddleOCR のインストール
PyPI から最新バージョンの PaddleOCR 推論パッケージをインストールします。
python -m pip install paddleocr
💻 使用例
基本的な使用法
単一のコマンドでモデルの機能をすばやく体験することができます。
paddleocr layout_detection --model_name PP-DocBlockLayout -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/SCL4KLVcaUKkinua_bTec.png
高度な使用法
LayoutDetection モジュールのモデル推論をあなたのプロジェクトに統合することもできます。以下のコードを実行する前に、サンプル画像をローカルにダウンロードしてください。
from paddleocr import LayoutDetection
model = LayoutDetection(model_name="PP-DocBlockLayout")
output = model.predict("SCL4KLVcaUKkinua_bTec.png", batch_size=1, layout_nms=True)
for res in output:
res.print()
res.save_to_img(save_path="./output/")
res.save_to_json(save_path="./output/res.json")
実行後、以下のような結果が得られます。
{'res': {'input_path': '/root/.paddlex/predict_input/SCL4KLVcaUKkinua_bTec.png', 'page_index': None, 'boxes': [{'cls_id': 0, 'label': 'Region', 'score': 0.9768685698509216, 'coordinate': [31.313992, 298.04843, 479.92798, 1994.14]}, {'cls_id': 0, 'label': 'Region', 'score': 0.9728955626487732, 'coordinate': [648.478, 1233.5554, 1552.8765, 1992.712]}, {'cls_id': 0, 'label': 'Region', 'score': 0.9725626707077026, 'coordinate': [647.51337, 295.63956, 1550.7095, 1181.5878]}, {'cls_id': 0, 'label': 'Region', 'score': 0.9079533219337463, 'coordinate': [644.75916, 59.31064, 1468.8861, 264.68124]}, {'cls_id': 0, 'label': 'Region', 'score': 0.8413463234901428, 'coordinate': [31.890125, 60.103912, 470.73123, 284.72952]}]}}
可視化画像は以下の通りです。

コマンドとパラメータの説明の詳細については、ドキュメントを参照してください。
📚 ドキュメント
属性 |
詳細 |
モデルタイプ |
レイアウトブロック位置特定モデル |
訓練データ |
独自に構築したデータセット。中英語の論文、PPT、多レイアウトの雑誌、契約書、書籍、試験用紙、古書、研究報告などが含まれます。 |
モデル精度
モデル |
mAP(0.5) (%) |
PP-DocBlockLayout |
95.9 |
注意:上記の精度指標の評価セットは、独自バージョンのサブ領域検出データセットで、中英語の論文、雑誌、新聞、研究報告、PPT、試験用紙、教科書などの文書タイプの画像が 1000 枚含まれています。
🔗 リンク
📄 ライセンス
このプロジェクトは Apache-2.0 ライセンスを採用しています。