模型简介
模型特点
模型能力
使用案例
🚀 RT-DETR-L_wired_table_cell_det
RT-DETR-L_wired_table_cell_det 是表格识别任务中的关键模块,主要负责定位和标记表格图像中的每个单元格区域,其性能直接影响整个表格识别过程的准确性和效率。
🚀 快速开始
安装
1. 安装 PaddlePaddle
请参考以下命令,使用 pip 安装 PaddlePaddle:
# for CUDA11.8
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
# for CUDA12.6
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
# for CPU
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddle 安装详情请参考 PaddlePaddle 官方网站。
2. 安装 PaddleOCR
从 PyPI 安装最新版本的 PaddleOCR 推理包:
python -m pip install paddleocr
模型使用
单命令体验功能
你可以使用单命令快速体验功能:
paddleocr table_cells_detection \
--model_name RT-DETR-L_wired_table_cell_det \
-i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/JUU_5wJWVo4PcmJhSdIo3.png
集成到项目中
你也可以将表格分类模块的模型推理集成到你的项目中。在运行以下代码之前,请将示例图像下载到本地。
from paddleocr import TableCellsDetection
model = TableCellsDetection(model_name="RT-DETR-L_wired_table_cell_det")
output = model.predict("JUU_5wJWVo4PcmJhSdIo3.png", threshold=0.3, batch_size=1)
for res in output:
res.print(json_format=False)
res.save_to_img("./output/")
res.save_to_json("./output/res.json")
运行后,得到的结果如下:
{'res': {'input_path': 'JUU_5wJWVo4PcmJhSdIo3.png', 'page_index': None, 'boxes': [{'cls_id': 0, 'label': 'cell', 'score': 0.9719462394714355, 'coordinate': [98.776054, 48.676155, 235.74197, 94.76812]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9706293344497681, 'coordinate': [235.65723, 48.66303, 473.31378, 94.746185]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9692592620849609, 'coordinate': [235.62718, 164.7009, 473.3329, 211.70175]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9682302474975586, 'coordinate': [98.61444, 164.80591, 235.63733, 211.60106]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9662815928459167, 'coordinate': [1.914098, 48.64288, 98.82235, 94.75366]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9643649458885193, 'coordinate': [1.8260963, 164.74123, 98.64024, 211.56848]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9605159759521484, 'coordinate': [98.783226, 117.873886, 235.74089, 141.91118]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9604074358940125, 'coordinate': [98.77425, 94.79676, 235.80171, 117.937065]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9603073596954346, 'coordinate': [98.788315, 1.8037335, 235.8512, 24.844206]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9592577815055847, 'coordinate': [235.70949, 94.7883, 473.3138, 117.90771]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9591122269630432, 'coordinate': [98.85015, 24.80603, 235.73082, 48.770897]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9586214423179626, 'coordinate': [235.62253, 1.8327671, 473.30493, 24.799725]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9583646059036255, 'coordinate': [235.7168, 117.81723, 473.26074, 141.87694]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9580551385879517, 'coordinate': [98.747986, 141.79, 235.71774, 164.90057]}, {'cls_id': 0, 'label': 'cell', 'score': 0.957258939743042, 'coordinate': [235.6782, 24.70515, 473.0595, 48.79732]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9568949937820435, 'coordinate': [1.8317447, 94.74939, 98.85935, 117.94785]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9563664793968201, 'coordinate': [1.8571337, 1.8207415, 98.98403, 24.901613]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9562588334083557, 'coordinate': [235.67096, 141.72911, 473.3746, 164.82388]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9557535648345947, 'coordinate': [1.922168, 117.84509, 98.85703, 141.85947]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9551460146903992, 'coordinate': [1.8364778, 141.7853, 98.83259, 164.88046]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9547295570373535, 'coordinate': [2.0152304, 24.793072, 98.84856, 48.75716]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9525823593139648, 'coordinate': [235.63931, 211.63988, 473.2472, 254.16182]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9454454779624939, 'coordinate': [98.62049, 211.4913, 235.57971, 254.40237]}, {'cls_id': 0, 'label': 'cell', 'score': 0.9410758018493652, 'coordinate': [1.9204835, 211.48651, 98.601524, 254.9897]}]}}
可视化图像如下:
使用命令和参数说明的详细信息,请参考 文档。
管道使用
单个模型的能力有限,但由多个模型组成的管道可以提供更强的能力来解决现实场景中的难题。
通用表格识别 V2 管道
通用表格识别 V2 管道用于解决表格识别任务,通过从图像中提取信息并以 HTML 或 Excel 格式输出。该管道包含 8 个模块:
- 表格分类模块
- 表格结构识别模块
- 表格单元格检测模块
- 文本检测模块
- 文本识别模块
- 布局区域检测模块(可选)
- 文档图像方向分类模块(可选)
- 文本图像去畸变模块(可选)
运行单命令快速体验通用表格识别 V2 管道:
paddleocr table_recognition_v2 -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mabagznApI1k9R8qFoTLc.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--save_path ./output \
--device gpu:0
结果将打印到终端:
{'res': {'input_path': 'mabagznApI1k9R8qFoTLc.png', 'page_index': None, 'model_settings': {'use_doc_preprocessor': False, 'use_layout_detection': True, 'use_ocr_model': True}, 'layout_det_res': {'input_path': None, 'page_index': None, 'boxes': [{'cls_id': 8, 'label': 'table', 'score': 0.86655592918396, 'coordinate': [0.0125130415, 0.41920784, 1281.3737, 585.3884]}]}, 'overall_ocr_res': {'input_path': None, 'page_index': None, 'model_settings': {'use_doc_preprocessor': False, 'use_textline_orientation': False}, 'dt_polys': array([[[ 9, 21],
...,
[ 9, 59]],
...,
[[1046, 536],
...,
[1046, 573]]], dtype=int16), 'text_det_params': {'limit_side_len': 960, 'limit_type': 'max', 'thresh': 0.3, 'box_thresh': 0.6, 'unclip_ratio': 2.0}, 'text_type': 'general', 'textline_orientation_angles': array([-1, ..., -1]), 'text_rec_score_thresh': 0, 'rec_texts': ['部门', '报销人', '报销事由', '批准人:', '单据', '张', '合计金额', '元', '车费票', '其', '火车费票', '飞机票', '中', '旅住宿费', '其他', '补贴'], 'rec_scores': array([0.99958128, ..., 0.99317062]), 'rec_polys': array([[[ 9, 21],
...,
[ 9, 59]],
...,
[[1046, 536],
...,
[1046, 573]]], dtype=int16), 'rec_boxes': array([[ 9, ..., 59],
...,
[1046, ..., 573]], dtype=int16)}, 'table_res_list': [{'cell_box_list': [array([ 0.13052222, ..., 73.08310249]), array([104.43082511, ..., 73.27777413]), array([319.39041221, ..., 73.30439308]), array([424.2436837 , ..., 73.44736794]), array([580.75836265, ..., 73.24003914]), array([723.04370201, ..., 73.22717598]), array([984.67315757, ..., 73.20420387]), array([1.25130415e-02, ..., 5.85419208e+02]), array([984.37072837, ..., 137.02281502]), array([984.26586998, ..., 201.22290352]), array([984.24017417, ..., 585.30775765]), array([1039.90606773, ..., 265.44664314]), array([1039.69549644, ..., 329.30540779]), array([1039.66546714, ..., 393.57319954]), array([1039.5122689 , ..., 457.74644783]), array([1039.55535972, ..., 521.73030403]), array([1039.58612144, ..., 585.09468392])], 'pred_html': '<html><body><table><tbody><tr><td>部门</td><td></td><td>报销人</td><td></td><td>报销事由</td><td></td><td colspan="2">批准人:</td></tr><tr><td colspan="6" rowspan="8"></td><td colspan="2">单据 张</td></tr><tr><td colspan="2">合计金额 元</td></tr><tr><td rowspan="6">其 中</td><td>车费票</td></tr><tr><td>火车费票</td></tr><tr><td>飞机票</td></tr><tr><td>旅住宿费</td></tr><tr><td>其他</td></tr><tr><td>补贴</td></tr></tbody></table></body></html>', 'table_ocr_pred': {'rec_polys': array([[[ 9, 21],
...,
[ 9, 59]],
...,
[[1046, 536],
...,
[1046, 573]]], dtype=int16), 'rec_texts': ['部门', '报销人', '报销事由', '批准人:', '单据', '张', '合计金额', '元', '车费票', '其', '火车费票', '飞机票', '中', '旅住宿费', '其他', '补贴'], 'rec_scores': array([0.99958128, ..., 0.99317062]), 'rec_boxes': array([[ 9, ..., 59],
...,
[1046, ..., 573]], dtype=int16)}}]}}
如果指定了 save_path
,可视化结果将保存在 save_path
下。可视化输出如下:
命令行方法用于快速体验。对于项目集成,也只需要几行代码:
from paddleocr import TableRecognitionPipelineV2
pipeline = TableRecognitionPipelineV2(
use_doc_orientation_classify=False, # 使用 use_doc_orientation_classify 启用/禁用文档方向分类模型
use_doc_unwarping=False, # 使用 use_doc_unwarping 启用/禁用文档去畸变模块
)
# pipeline = TableRecognitionPipelineV2(use_doc_orientation_classify=True) # 使用 use_doc_orientation_classify 指定是否使用文档方向分类模型
# pipeline = TableRecognitionPipelineV2(use_doc_unwarping=True) # 使用 use_doc_unwarping 指定是否使用文本图像去畸变模块
# pipeline = TableRecognitionPipelineV2(device="gpu") # 使用 device 指定使用 GPU 进行模型推理
output = pipeline.predict("https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mabagznApI1k9R8qFoTLc.png")
for res in output:
res.print() ## 打印预测的结构化输出
res.save_to_img("./output/")
res.save_to_xlsx("./output/")
res.save_to_html("./output/")
res.save_to_json("./output/")
使用命令和参数说明的详细信息,请参考 文档。
PP-StructureV3
布局分析是一种从文档图像中提取结构化信息的技术。PP-StructureV3 包括以下六个模块:
- 布局检测模块
- 通用 OCR 管道
- 文档图像预处理管道(可选)
- 表格识别管道(可选)
- 印章识别管道(可选)
- 公式识别管道(可选)
运行单命令快速体验 PP-StructureV3 管道:
paddleocr pp_structurev3 -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mG4tnwfrvECoFMu-S9mxo.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--use_textline_orientation False \
--device gpu:0
结果将打印到终端。如果指定了 save_path
,结果将保存在 save_path
下。
只需几行代码就可以体验管道的推理。以 PP-StructureV3 管道为例:
from paddleocr import PPStructureV3
pipeline = PPStructureV3(
use_doc_orientation_classify=False, # 使用 use_doc_orientation_classify 启用/禁用文档方向分类模型
use_doc_unwarping=False, # 使用 use_doc_unwarping 启用/禁用文档去畸变模块
use_textline_orientation=False, # 使用 use_textline_orientation 启用/禁用文本行方向分类模型
device="gpu:0", # 使用 device 指定使用 GPU 进行模型推理
)
output = pipeline.predict("SfxF0X4drBTNGnfFOtZij.png")
for res in output:
res.print() # 打印结构化预测输出
res.save_to_json(save_path="output") ## 以 JSON 格式保存当前图像的结构化结果
res.save_to_markdown(save_path="output") ## 以 Markdown 格式保存当前图像的结果
使用命令和参数说明的详细信息,请参考 文档。
✨ 主要特性
表格单元格检测模块是表格识别任务的关键组成部分,负责定位和标记表格图像中的每个单元格区域,其性能直接影响整个表格识别过程的准确性和效率。该模块通常输出每个单元格区域的边界框,然后作为输入传递给表格识别管道进行进一步处理。
模型 | 准确率(%) | GPU 推理时间(ms) [常规模式 / 高性能模式] |
CPU 推理时间(ms) [常规模式 / 高性能模式] |
模型存储大小(M) |
---|---|---|---|---|
RT-DETR-L_wired_table_cell_det | 82.7 | 35.00 / 10.45 | 495.51 / 495.51 | 124M |
注意:RT-DETR-L_wired_table_cell_det 的准确率来自与 RT-DETR-L_wireless_table_cell_det 联合测试的结果。
📦 安装指南
安装 PaddlePaddle
请参考以下命令,使用 pip 安装 PaddlePaddle:
# for CUDA11.8
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
# for CUDA12.6
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
# for CPU
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddle 安装详情请参考 PaddlePaddle 官方网站。
安装 PaddleOCR
从 PyPI 安装最新版本的 PaddleOCR 推理包:
python -m pip install paddleocr
💻 使用示例
基础用法
paddleocr table_cells_detection \
--model_name RT-DETR-L_wired_table_cell_det \
-i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/JUU_5wJWVo4PcmJhSdIo3.png
高级用法
from paddleocr import TableCellsDetection
model = TableCellsDetection(model_name="RT-DETR-L_wired_table_cell_det")
output = model.predict("JUU_5wJWVo4PcmJhSdIo3.png", threshold=0.3, batch_size=1)
for res in output:
res.print(json_format=False)
res.save_to_img("./output/")
res.save_to_json("./output/res.json")
📚 详细文档
使用命令和参数说明的详细信息,请参考以下文档:
📄 许可证
本项目采用 Apache-2.0 许可证。
🔗 链接











