P

Paligemma 3b Mix 448 Ft TableDetection

由ucsahin開發
基於google/paligemma-3b-mix-448微調的多模態表格檢測模型,專用於識別圖像中的表格區域
下載量 19
發布時間 : 5/25/2024

模型概述

該模型通過結合圖像和文本輸入來預測圖像中表格的邊界框座標,適用於文檔處理和數據提取等場景

模型特點

多模態輸入處理
支持同時處理圖像和文本輸入,實現視覺-語言聯合理解
高精度表格檢測
在pubtables-detection數據集上微調,專門優化表格區域識別能力
標準化輸出格式
輸出規範化座標值,便於轉換為多種邊界框格式

模型能力

圖像中的表格檢測
邊界框座標預測
多模態理解

使用案例

文檔處理
PDF表格提取
從掃描文檔中自動定位表格區域
輸出標準化座標便於後續OCR處理
數據採集
網頁截圖分析
識別截圖中的表格結構
為數據爬蟲提供定位參考
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase