table-detection-and-extraction開源表格檢測模型 - 精準識別圖像中有邊框及無邊框表格

首頁

Table Detection And Extraction

由foduucom開發

基於YOLOv8s的表格檢測模型，能夠準確識別圖像中的有邊框和無邊框表格。

目標檢測

TensorBoard

英語#高精度表格檢測 #無邊框表格識別 #文檔OCR集成

下載量 55.45k

發布時間 : 8/5/2023

模型概述

該模型專為檢測圖像中的表格而設計，無論表格是否有邊框。它在大量數據集上進行了微調，在檢測表格及區分有邊框和無邊框表格方面實現了高準確率。

模型特點

高精度表格檢測

模型在檢測表格方面實現了0.962的mAP@0.5準確率，能夠有效識別有邊框和無邊框表格。

非結構化文檔處理

能夠處理複雜非結構化文檔中的表格，通過邊界框技術隔離表格區域。

OCR集成能力

可與OCR技術無縫集成，不僅檢測表格位置還能提取表格中的文本數據。

多樣化表格識別

能夠識別各種設計和風格的表格，適應不同的文檔佈局。

模型能力

表格檢測

表格分類（有邊框/無邊框）

文檔分析

非結構化表格提取

結構化表格提取

使用案例

文檔處理

表格數據提取

從掃描文檔或圖像中提取表格數據

結合OCR技術實現表格數據的自動提取

文檔分析

分析文檔中的表格佈局和結構

幫助理解文檔內容和組織結構

數據管理

非結構化數據轉換

將非結構化文檔中的表格轉換為結構化數據

便於後續數據分析和處理

🚀 YOLOv8s表格檢測模型

該模型基於YOLO框架，能夠精準檢測圖像中的表格，無論是有邊框還是無邊框的表格。它在大量數據集上進行了微調，在表格檢測和區分有邊框與無邊框表格方面達到了很高的準確率。

🚀 快速開始

要開始使用YOLOv8s表格檢測模型，請按照以下步驟操作：

pip install ultralyticsplus==0.0.28 ultralytics==8.0.43

加載模型並進行預測：

from ultralyticsplus import YOLO, render_result

# load model
model = YOLO('foduucom/table-detection-and-extraction')

# set model parameters
model.overrides['conf'] = 0.25  # NMS confidence threshold
model.overrides['iou'] = 0.45  # NMS IoU threshold
model.overrides['agnostic_nms'] = False  # NMS class-agnostic
model.overrides['max_det'] = 1000  # maximum number of detections per image

# set image
image = '/path/to/your/document/images'

# perform inference
results = model.predict(image)

# observe results
print(results[0].boxes)
render = render_result(model=model, image=image, result=results[0])
render.show()

✨ 主要特性

精準檢測：能夠準確檢測圖像中的有邊框和無邊框表格。
多功能應用：不僅可用於表格檢測，還能助力非結構化文檔處理。
集成OCR：與光學字符識別（OCR）技術無縫集成，實現表格數據的精確提取。
社區協作：鼓勵用戶參與，通過提供不同設計和類型的表格圖像，提升模型性能。

📚 詳細文檔

模型詳情

模型描述

YOLOv8s表格檢測模型是一種多功能解決方案，可精確識別圖像中的表格，無論其設計是有邊框還是無邊框。該模型的能力不僅限於檢測，還在處理非結構化文檔方面發揮著關鍵作用。通過採用先進的邊界框繪製技術，用戶可以在視覺內容中隔離出感興趣的表格。

該模型的獨特之處在於它與光學字符識別（OCR）技術的協同作用。這種無縫集成使模型不僅能夠定位表格，還能提取其中的相關數據。邊界框信息指導表格的裁剪，然後結合OCR技術精心提取文本數據，簡化了從非結構化文檔中檢索信息的過程。

開發者：FODUU AI
模型類型：目標檢測
任務：表格檢測（有邊框和無邊框）

此外，YOLOv8s表格檢測模型並不侷限於表格檢測。它是一個多功能工具，有助於非結構化文檔的處理。通過利用先進的邊界框技術，該模型使用戶能夠在文檔的視覺內容中隔離出表格。該模型的獨特之處在於它與光學字符識別（OCR）技術的無縫集成。邊界框信息和OCR的結合允許從表格中精確提取數據。這種全面的方法簡化了從複雜文檔中檢索信息的過程。

我們鼓勵用戶積極參與協作，以增強模型的功能。通過提供不同設計和類型的表格圖像，用戶在提高模型準確檢測各種表格的能力方面發揮著關鍵作用。用戶可以通過我們的平臺或發送郵件至info@foduu.com參與社區貢獻。我們重視推動表格檢測和提取不斷改進和創新的協作努力。

支持的標籤

['bordered', 'borderless']

使用場景

直接使用

YOLOv8s表格檢測模型可直接用於檢測圖像中的表格，無論其是有邊框還是無邊框，並能夠區分這兩種類型。

下游使用

該模型還可針對特定的表格檢測任務進行微調，或集成到更大的應用程序中，用於傢俱識別、室內設計、基於圖像的數據提取等相關領域。

超出適用範圍的使用

該模型不適用於與表格檢測無關的目標檢測任務或場景。

偏差、風險和侷限性

YOLOv8s表格檢測模型可能存在一些侷限性和偏差：

性能可能因訓練數據的質量、多樣性和代表性而異。
模型在檢測設計複雜或佈局複雜的表格時可能會遇到挑戰。
準確性可能會受到光照條件、圖像質量和分辨率變化的影響。
對非常小或距離較遠的表格的檢測可能不太準確。
模型對有邊框和無邊框表格的分類能力可能會受到設計變化的影響。

建議

用戶應瞭解模型的侷限性和潛在偏差。建議針對特定用例進行進一步的測試和驗證，以準確評估其性能。

訓練詳情

訓練數據

該模型在一個多樣化的數據集上進行訓練，該數據集包含來自各種來源的表格圖像。數據集包括有邊框和無邊框表格的示例，涵蓋了不同的設計和風格。

訓練過程

訓練過程涉及大量計算，並在多個週期內進行。模型的權重會進行調整，以最小化檢測損失並優化性能。

指標

mAP@0.5 (box)：
- 總體：0.962
- 有邊框：0.961
- 無邊框：0.963

模型架構和目標

YOLOv8s架構採用了改進的CSPDarknet53作為其骨幹網絡，並結合了自注意力機制和特徵金字塔網絡。這些組件有助於模型準確檢測和分類表格，同時考慮到大小、設計和風格的變化。

計算基礎設施

硬件

NVIDIA GeForce RTX 3060顯卡

軟件

該模型使用Jupyter Notebook環境進行訓練和微調。

模型卡片聯繫方式

如有諮詢和貢獻需求，請通過info@foduu.com與我們聯繫。

@ModelCard{
  author    = {Nehul Agrawal and
               Pranjal Singh Thakur},
  title     = {YOLOv8s Table Detection},
  year      = {2023}
}

🔧 技術細節

模型架構

YOLOv8s架構採用了改進的CSPDarknet53作為其骨幹網絡，結合自注意力機制和特徵金字塔網絡，使模型能夠準確檢測和分類不同大小、設計和風格的表格。

訓練過程

模型在多樣化的數據集上進行訓練，訓練過程涉及大量計算，經過多個週期的訓練，調整模型權重以最小化檢測損失，優化性能。

評估指標

使用mAP@0.5 (box)指標評估模型性能，總體mAP@0.5 (box)達到0.962，有邊框表格為0.961，無邊框表格為0.963。

📄 許可證

文檔中未提及相關內容，故跳過該章節。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫