P

Pix2struct Base Table2html

由KennethTM開發
基於Pix2Struct的表格圖像轉HTML模型,可將表格圖片轉換為結構化HTML代碼
下載量 104
發布時間 : 9/10/2024

模型概述

該模型接收表格圖片並輸出對應的HTML代碼,實現表格圖像的OCR和結構化識別功能。適用於需要從圖像中提取表格數據的場景。

模型特點

表格圖像識別
能夠準確識別表格圖像中的文字和結構
HTML生成
將識別結果轉換為結構化的HTML代碼
多數據集訓練
使用MMTab和PubTabNet兩個數據集進行訓練,提高泛化能力
1024分塊長度
支持最大1024的分塊長度,適合處理複雜表格

模型能力

表格圖像識別
HTML代碼生成
表格結構解析
多語言表格處理

使用案例

文檔數字化
PDF表格提取
從PDF文檔中提取表格並轉換為HTML格式
生成可編輯的HTML表格代碼
數據採集
網頁表格抓取
將網頁截圖中的表格轉換為結構化數據
獲得可直接使用的表格數據
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase