模型简介
模型特点
模型能力
使用案例
🚀 SLANet_plus
SLANet_plus是一款用于表格结构识别的模型,能够将不可编辑的表格图像转换为可编辑的表格格式(如HTML),在表格识别系统中发挥着重要作用,可有效提升表格识别的准确性和效率。
🚀 快速开始
安装依赖
1. 安装PaddlePaddle
请参考以下命令,使用pip安装PaddlePaddle:
# 适用于CUDA11.8
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
# 适用于CUDA12.6
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
# 适用于CPU
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddle安装详情请参考PaddlePaddle官方网站。
2. 安装PaddleOCR
从PyPI安装最新版本的PaddleOCR推理包:
python -m pip install paddleocr
模型使用
单命令体验功能
你可以通过单命令快速体验功能:
paddleocr table_structure_recognition \
--model_name SLANet_plus \
-i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/6rfhb-CXOHowonjpBsaUJ.png
集成到项目中
你也可以将表格分类模块的模型推理集成到你的项目中。在运行以下代码之前,请将示例图像下载到本地。
from paddleocr import TableStructureRecognition
model = TableStructureRecognition(model_name="SLANet_plus")
output = model.predict(input="UHf7jONQ3a18cszdL_Wuo.png", batch_size=1)
for res in output:
res.print(json_format=False)
res.save_to_json("./output/res.json")
运行后,得到的结果如下:
{'res': {'input_path': '6rfhb-CXOHowonjpBsaUJ.png', 'page_index': None, 'bbox': [[1, 2, 64, 2, 64, 41, 1, 41], [52, 1, 199, 1, 198, 38, 51, 38], [182, 1, 253, 1, 254, 40, 184, 40], [248, 1, 323, 1, 324, 41, 249, 41], [314, 1, 384, 1, 385, 40, 315, 40], [389, 2, 493, 2, 493, 45, 388, 44], [2, 42, 50, 42, 50, 77, 2, 77], [65, 42, 176, 42, 175, 77, 64, 77], [187, 40, 251, 40, 249, 79, 185, 79], [252, 41, 319, 41, 319, 80, 251, 80], [318, 40, 379, 40, 380, 78, 318, 78], [385, 39, 497, 39, 497, 84, 384, 83], [2, 82, 50, 82, 50, 118, 2, 118], [63, 80, 182, 80, 181, 114, 62, 114], [189, 80, 250, 80, 249, 114, 187, 114], [253, 80, 319, 80, 319, 114, 252, 114], [320, 78, 378, 79, 378, 114, 320, 114], [395, 77, 496, 78, 496, 118, 394, 118], [2, 117, 49, 118, 50, 155, 2, 155], [65, 115, 180, 115, 179, 151, 64, 151], [191, 115, 249, 115, 248, 150, 189, 150], [254, 115, 318, 115, 318, 150, 253, 150], [321, 114, 377, 114, 378, 150, 321, 150], [396, 113, 495, 113, 495, 154, 394, 153], [1, 153, 56, 153, 57, 192, 1, 191], [68, 152, 175, 152, 175, 189, 67, 189], [189, 152, 249, 152, 249, 188, 188, 188], [252, 152, 317, 152, 318, 188, 252, 188], [320, 150, 377, 151, 378, 188, 321, 187], [393, 150, 494, 151, 494, 193, 391, 192]], 'structure': ['<html>', '<body>', '<table>', '<tr>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '</tr>', '<tr>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '</tr>', '<tr>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '</tr>', '<tr>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '</tr>', '<tr>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '<td></td>', '</tr>', '</table>', '</body>', '</html>'], 'structure_score': 0.99635947}}
使用命令和参数说明详情请参考文档。
管道使用
单个模型的能力有限,但由多个模型组成的管道可以提供更强的能力,以解决现实场景中的难题。
通用表格识别V2管道
通用表格识别V2管道用于解决表格识别任务,通过从图像中提取信息并以HTML或Excel格式输出。管道中有8个模块:
- 表格分类模块
- 表格结构识别模块
- 表格单元格检测模块
- 文本检测模块
- 文本识别模块
- 布局区域检测模块(可选)
- 文档图像方向分类模块(可选)
- 文本图像去畸变模块(可选)
运行单命令,使用默认配置快速体验通用表格识别V2管道,该管道使用SLANeXt_wired和SLANeXt_wireless预测表格结构:
paddleocr table_recognition_v2 -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mabagznApI1k9R8qFoTLc.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--save_path ./output \
--device gpu:0
结果会打印到终端:
{'res': {'input_path': 'mabagznApI1k9R8qFoTLc.png', 'page_index': None, 'model_settings': {'use_doc_preprocessor': False, 'use_layout_detection': True, 'use_ocr_model': True}, 'layout_det_res': {'input_path': None, 'page_index': None, 'boxes': [{'cls_id': 8, 'label': 'table', 'score': 0.86655592918396, 'coordinate': [0.0125130415, 0.41920784, 1281.3737, 585.3884]}]}, 'overall_ocr_res': {'input_path': None, 'page_index': None, 'model_settings': {'use_doc_preprocessor': False, 'use_textline_orientation': False}, 'dt_polys': array([[[ 9, 21],
...,
[ 9, 59]],
...,
[[1046, 536],
...,
[1046, 573]]], dtype=int16), 'text_det_params': {'limit_side_len': 960, 'limit_type': 'max', 'thresh': 0.3, 'box_thresh': 0.6, 'unclip_ratio': 2.0}, 'text_type': 'general', 'textline_orientation_angles': array([-1, ..., -1]), 'text_rec_score_thresh': 0, 'rec_texts': ['部门', '报销人', '报销事由', '批准人:', '单据', '张', '合计金额', '元', '车费票', '其', '火车费票', '飞机票', '中', '旅住宿费', '其他', '补贴'], 'rec_scores': array([0.99958128, ..., 0.99317062]), 'rec_polys': array([[[ 9, 21],
...,
[ 9, 59]],
...,
[[1046, 536],
...,
[1046, 573]]], dtype=int16), 'rec_boxes': array([[ 9, ..., 59],
...,
[1046, ..., 573]], dtype=int16)}, 'table_res_list': [{'cell_box_list': [array([ 0.13052222, ..., 73.08310249]), array([104.43082511, ..., 73.27777413]), array([319.39041221, ..., 73.30439308]), array([424.2436837 , ..., 73.44736794]), array([580.75836265, ..., 73.24003914]), array([723.04370201, ..., 73.22717598]), array([984.67315757, ..., 73.20420387]), array([1.25130415e-02, ..., 5.85419208e+02]), array([984.37072837, ..., 137.02281502]), array([984.26586998, ..., 201.22290352]), array([984.24017417, ..., 585.30775765]), array([1039.90606773, ..., 265.44664314]), array([1039.69549644, ..., 329.30540779]), array([1039.66546714, ..., 393.57319954]), array([1039.5122689 , ..., 457.74644783]), array([1039.55535972, ..., 521.73030403]), array([1039.58612144, ..., 585.09468392])], 'pred_html': '<html><body><table><tbody><tr><td>部门</td><td></td><td>报销人</td><td></td><td>报销事由</td><td></td><td colspan="2">批准人:</td></tr><tr><td colspan="6" rowspan="8"></td><td colspan="2">单据 张</td></tr><tr><td colspan="2">合计金额 元</td></tr><tr><td rowspan="6">其 中</td><td>车费票</td></tr><tr><td>火车费票</td></tr><tr><td>飞机票</td></tr><tr><td>旅住宿费</td></tr><tr><td>其他</td></tr><tr><td>补贴</td></tr></tbody></table></body></html>', 'table_ocr_pred': {'rec_polys': array([[[ 9, 21],
...,
[ 9, 59]],
...,
[[1046, 536],
...,
[1046, 573]]], dtype=int16), 'rec_texts': ['部门', '报销人', '报销事由', '批准人:', '单据', '张', '合计金额', '元', '车费票', '其', '火车费票', '飞机票', '中', '旅住宿费', '其他', '补贴'], 'rec_scores': array([0.99958128, ..., 0.99317062]), 'rec_boxes': array([[ 9, ..., 59],
...,
[1046, ..., 573]], dtype=int16)}}]}}
如果指定了save_path
,可视化结果将保存到save_path
下。可视化输出如下:
命令行方法用于快速体验。对于项目集成,也只需要几行代码:
from paddleocr import TableRecognitionPipelineV2
pipeline = TableRecognitionPipelineV2(
use_doc_orientation_classify=False, # 使用use_doc_orientation_classify启用/禁用文档方向分类模型
use_doc_unwarping=False, # 使用use_doc_unwarping启用/禁用文档去畸变模块
)
# pipeline = TableRecognitionPipelineV2(use_doc_orientation_classify=True) # 使用use_doc_orientation_classify指定是否使用文档方向分类模型
# pipeline = TableRecognitionPipelineV2(use_doc_unwarping=True) # 使用use_doc_unwarping指定是否使用文本图像去畸变模块
# pipeline = TableRecognitionPipelineV2(device="gpu") # 使用device指定使用GPU进行模型推理
output = pipeline.predict("https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mabagznApI1k9R8qFoTLc.png")
for res in output:
res.print() ## 打印预测的结构化输出
res.save_to_img("./output/")
res.save_to_xlsx("./output/")
res.save_to_html("./output/")
res.save_to_json("./output/")
如果你想使用SLANet_plus模型进行表格识别,只需更改模型名称并使用端到端预测模式,如下所示:
paddleocr table_recognition_v2 -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mabagznApI1k9R8qFoTLc.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--wired_table_structure_recognition_model_name SLANet_plus \
--use_e2e_wired_table_rec_model True \
--wireless_table_structure_recognition_model_name SLANet_plus \
--use_e2e_wireless_table_rec_model True \
--save_path ./output \
--device gpu:0
from paddleocr import TableRecognitionPipelineV2
pipeline = TableRecognitionPipelineV2(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
wired_table_structure_recognition_model_name=SLANet_plus, ## 用于有线表格识别
wireless_table_structure_recognition_model_name=SLANet_plus, ## 用于无线表格识别
)
output = pipeline.predict(
"https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mabagznApI1k9R8qFoTLc.png",
use_e2e_wired_table_rec_model=True, ## 用于有线表格识别
use_e2e_wireless_table_rec_model=True, ## 用于无线表格识别
)
for res in output:
res.print() ## 打印预测的结构化输出
res.save_to_img("./output/")
res.save_to_xlsx("./output/")
res.save_to_html("./output/")
res.save_to_json("./output/")
使用命令和参数说明详情请参考文档。
PP-StructureV3
布局分析是一种从文档图像中提取结构化信息的技术。PP-StructureV3包括以下六个模块:
- 布局检测模块
- 通用OCR管道
- 文档图像预处理管道(可选)
- 表格识别管道(可选)
- 印章识别管道(可选)
- 公式识别管道(可选)
运行单命令快速体验PP-StructureV3管道:
paddleocr pp_structurev3 -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mG4tnwfrvECoFMu-S9mxo.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--wired_table_structure_recognition_model_name SLANet_plus \
--use_e2e_wired_table_rec_model True \
--wireless_table_structure_recognition_model_name SLANet_plus \
--use_e2e_wireless_table_rec_model True \
--use_textline_orientation False \
--device gpu:0
结果将打印到终端。如果指定了save_path
,结果将保存到save_path
下。
只需几行代码即可体验管道推理。以PP-StructureV3管道为例:
from paddleocr import PPStructureV3
pipeline = PPStructureV3(
wired_table_structure_recognition_model_name=SLANet_plus, ## 用于有线表格识别
wireless_table_structure_recognition_model_name=SLANet_plus, ## 用于无线表格识别
use_doc_orientation_classify=False, # 使用use_doc_orientation_classify启用/禁用文档方向分类模型
use_doc_unwarping=False, # 使用use_doc_unwarping启用/禁用文档去畸变模块
use_textline_orientation=False, # 使用use_textline_orientation启用/禁用文本行方向分类模型
device="gpu:0", # 使用device指定使用GPU进行模型推理
)
output = pipeline.predict(
"mG4tnwfrvECoFMu-S9mxo.png",
use_e2e_wired_table_rec_model=True, ## 用于有线表格识别
use_e2e_wireless_table_rec_model=True, ## 用于无线表格识别
)
for res in output:
res.print() # 打印结构化预测输出
res.save_to_json(save_path="output") ## 以JSON格式保存当前图像的结构化结果
res.save_to_markdown(save_path="output") ## 以Markdown格式保存当前图像的结果
管道中默认使用的模型是SLANeXt_wired
和SLANeXt_wireless
,因此需要通过参数指定为SLANet_plus
。使用命令和参数说明详情请参考文档。
✨ 主要特性
表格结构识别能力
能够准确识别表格中的行、列和单元格位置,将非编辑的表格图像转换为可编辑的HTML格式,为表格识别系统提供关键支持。
多模块集成管道
提供通用表格识别V2管道和PP-StructureV3管道,集成了表格分类、结构识别、文本检测与识别等多个模块,可解决复杂的表格识别任务。
高效推理
模型存储大小仅为6.9M,在GPU和CPU上都有较好的推理速度,能够满足不同场景下的使用需求。
📦 安装指南
安装PaddlePaddle
# 适用于CUDA11.8
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
# 适用于CUDA12.6
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
# 适用于CPU
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
安装PaddleOCR
python -m pip install paddleocr
💻 使用示例
基础用法
单命令体验模型功能
paddleocr table_structure_recognition \
--model_name SLANet_plus \
-i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/6rfhb-CXOHowonjpBsaUJ.png
集成到项目中
from paddleocr import TableStructureRecognition
model = TableStructureRecognition(model_name="SLANet_plus")
output = model.predict(input="UHf7jONQ3a18cszdL_Wuo.png", batch_size=1)
for res in output:
res.print(json_format=False)
res.save_to_json("./output/res.json")
高级用法
使用通用表格识别V2管道
paddleocr table_recognition_v2 -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mabagznApI1k9R8qFoTLc.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--save_path ./output \
--device gpu:0
from paddleocr import TableRecognitionPipelineV2
pipeline = TableRecognitionPipelineV2(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
wired_table_structure_recognition_model_name=SLANet_plus,
wireless_table_structure_recognition_model_name=SLANet_plus,
)
output = pipeline.predict(
"https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mabagznApI1k9R8qFoTLc.png",
use_e2e_wired_table_rec_model=True,
use_e2e_wireless_table_rec_model=True,
)
for res in output:
res.print()
res.save_to_img("./output/")
res.save_to_xlsx("./output/")
res.save_to_html("./output/")
res.save_to_json("./output/")
使用PP-StructureV3管道
paddleocr pp_structurev3 -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/mG4tnwfrvECoFMu-S9mxo.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--wired_table_structure_recognition_model_name SLANet_plus \
--use_e2e_wired_table_rec_model True \
--wireless_table_structure_recognition_model_name SLANet_plus \
--use_e2e_wireless_table_rec_model True \
--use_textline_orientation False \
--device gpu:0
from paddleocr import PPStructureV3
pipeline = PPStructureV3(
wired_table_structure_recognition_model_name=SLANet_plus,
wireless_table_structure_recognition_model_name=SLANet_plus,
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
device="gpu:0",
)
output = pipeline.predict(
"mG4tnwfrvECoFMu-S9mxo.png",
use_e2e_wired_table_rec_model=True,
use_e2e_wireless_table_rec_model=True,
)
for res in output:
res.print()
res.save_to_json(save_path="output")
res.save_to_markdown(save_path="output")
📚 详细文档
使用命令和参数说明详情请参考:
🔧 技术细节
模型性能指标
模型 | 准确率 (%) | GPU推理时间 (ms) [正常模式 / 高性能模式] |
CPU推理时间 (ms) [正常模式 / 高性能模式] |
模型存储大小 (M) |
---|---|---|---|---|
SLANet_plus | 63.69 | 140.29 / 140.29 | 195.39 / 195.39 | 6.9 |
管道模块组成
通用表格识别V2管道
包含表格分类、结构识别、单元格检测、文本检测与识别等8个模块,可从图像中提取表格信息并输出为HTML或Excel格式。
PP-StructureV3管道
集成了布局检测、通用OCR、文档预处理、表格识别等6个模块,可进行复杂文档图像的结构化信息提取。
📄 许可证
本项目采用Apache-2.0许可证。
🔗 相关链接











