table-detection-and-extraction开源表格检测模型 - 精准识别图像中有边框及无边框表格

首页

Table Detection And Extraction

由 foduucom 开发

基于YOLOv8s的表格检测模型，能够准确识别图像中的有边框和无边框表格。

目标检测

TensorBoard

英语#高精度表格检测 #无边框表格识别 #文档OCR集成

下载量 55.45k

发布时间 : 8/5/2023

模型简介

该模型专为检测图像中的表格而设计，无论表格是否有边框。它在大量数据集上进行了微调，在检测表格及区分有边框和无边框表格方面实现了高准确率。

模型特点

高精度表格检测

模型在检测表格方面实现了0.962的mAP@0.5准确率，能够有效识别有边框和无边框表格。

非结构化文档处理

能够处理复杂非结构化文档中的表格，通过边界框技术隔离表格区域。

OCR集成能力

可与OCR技术无缝集成，不仅检测表格位置还能提取表格中的文本数据。

多样化表格识别

能够识别各种设计和风格的表格，适应不同的文档布局。

模型能力

表格检测

表格分类（有边框/无边框）

文档分析

非结构化表格提取

结构化表格提取

使用案例

文档处理

表格数据提取

从扫描文档或图像中提取表格数据

结合OCR技术实现表格数据的自动提取

文档分析

分析文档中的表格布局和结构

帮助理解文档内容和组织结构

数据管理

非结构化数据转换

将非结构化文档中的表格转换为结构化数据

便于后续数据分析和处理

🚀 YOLOv8s表格检测模型

该模型基于YOLO框架，能够精准检测图像中的表格，无论是有边框还是无边框的表格。它在大量数据集上进行了微调，在表格检测和区分有边框与无边框表格方面达到了很高的准确率。

🚀 快速开始

要开始使用YOLOv8s表格检测模型，请按照以下步骤操作：

pip install ultralyticsplus==0.0.28 ultralytics==8.0.43

加载模型并进行预测：

from ultralyticsplus import YOLO, render_result

# load model
model = YOLO('foduucom/table-detection-and-extraction')

# set model parameters
model.overrides['conf'] = 0.25  # NMS confidence threshold
model.overrides['iou'] = 0.45  # NMS IoU threshold
model.overrides['agnostic_nms'] = False  # NMS class-agnostic
model.overrides['max_det'] = 1000  # maximum number of detections per image

# set image
image = '/path/to/your/document/images'

# perform inference
results = model.predict(image)

# observe results
print(results[0].boxes)
render = render_result(model=model, image=image, result=results[0])
render.show()

✨ 主要特性

精准检测：能够准确检测图像中的有边框和无边框表格。
多功能应用：不仅可用于表格检测，还能助力非结构化文档处理。
集成OCR：与光学字符识别（OCR）技术无缝集成，实现表格数据的精确提取。
社区协作：鼓励用户参与，通过提供不同设计和类型的表格图像，提升模型性能。

📚 详细文档

模型详情

模型描述

YOLOv8s表格检测模型是一种多功能解决方案，可精确识别图像中的表格，无论其设计是有边框还是无边框。该模型的能力不仅限于检测，还在处理非结构化文档方面发挥着关键作用。通过采用先进的边界框绘制技术，用户可以在视觉内容中隔离出感兴趣的表格。

该模型的独特之处在于它与光学字符识别（OCR）技术的协同作用。这种无缝集成使模型不仅能够定位表格，还能提取其中的相关数据。边界框信息指导表格的裁剪，然后结合OCR技术精心提取文本数据，简化了从非结构化文档中检索信息的过程。

开发者：FODUU AI
模型类型：目标检测
任务：表格检测（有边框和无边框）

此外，YOLOv8s表格检测模型并不局限于表格检测。它是一个多功能工具，有助于非结构化文档的处理。通过利用先进的边界框技术，该模型使用户能够在文档的视觉内容中隔离出表格。该模型的独特之处在于它与光学字符识别（OCR）技术的无缝集成。边界框信息和OCR的结合允许从表格中精确提取数据。这种全面的方法简化了从复杂文档中检索信息的过程。

我们鼓励用户积极参与协作，以增强模型的功能。通过提供不同设计和类型的表格图像，用户在提高模型准确检测各种表格的能力方面发挥着关键作用。用户可以通过我们的平台或发送邮件至info@foduu.com参与社区贡献。我们重视推动表格检测和提取不断改进和创新的协作努力。

支持的标签

['bordered', 'borderless']

使用场景

直接使用

YOLOv8s表格检测模型可直接用于检测图像中的表格，无论其是有边框还是无边框，并能够区分这两种类型。

下游使用

该模型还可针对特定的表格检测任务进行微调，或集成到更大的应用程序中，用于家具识别、室内设计、基于图像的数据提取等相关领域。

超出适用范围的使用

该模型不适用于与表格检测无关的目标检测任务或场景。

偏差、风险和局限性

YOLOv8s表格检测模型可能存在一些局限性和偏差：

性能可能因训练数据的质量、多样性和代表性而异。
模型在检测设计复杂或布局复杂的表格时可能会遇到挑战。
准确性可能会受到光照条件、图像质量和分辨率变化的影响。
对非常小或距离较远的表格的检测可能不太准确。
模型对有边框和无边框表格的分类能力可能会受到设计变化的影响。

建议

用户应了解模型的局限性和潜在偏差。建议针对特定用例进行进一步的测试和验证，以准确评估其性能。

训练详情

训练数据

该模型在一个多样化的数据集上进行训练，该数据集包含来自各种来源的表格图像。数据集包括有边框和无边框表格的示例，涵盖了不同的设计和风格。

训练过程

训练过程涉及大量计算，并在多个周期内进行。模型的权重会进行调整，以最小化检测损失并优化性能。

指标

mAP@0.5 (box)：
- 总体：0.962
- 有边框：0.961
- 无边框：0.963

模型架构和目标

YOLOv8s架构采用了改进的CSPDarknet53作为其骨干网络，并结合了自注意力机制和特征金字塔网络。这些组件有助于模型准确检测和分类表格，同时考虑到大小、设计和风格的变化。

计算基础设施

硬件

NVIDIA GeForce RTX 3060显卡

软件

该模型使用Jupyter Notebook环境进行训练和微调。

模型卡片联系方式

如有咨询和贡献需求，请通过info@foduu.com与我们联系。

@ModelCard{
  author    = {Nehul Agrawal and
               Pranjal Singh Thakur},
  title     = {YOLOv8s Table Detection},
  year      = {2023}
}

🔧 技术细节

模型架构

YOLOv8s架构采用了改进的CSPDarknet53作为其骨干网络，结合自注意力机制和特征金字塔网络，使模型能够准确检测和分类不同大小、设计和风格的表格。

训练过程

模型在多样化的数据集上进行训练，训练过程涉及大量计算，经过多个周期的训练，调整模型权重以最小化检测损失，优化性能。

评估指标

使用mAP@0.5 (box)指标评估模型性能，总体mAP@0.5 (box)达到0.962，有边框表格为0.961，无边框表格为0.963。

📄 许可证

文档中未提及相关内容，故跳过该章节。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库