🚀 StructEqTable-Deploy:高效開源的表格轉LaTeX工具包
StructEqTable-Deploy是一款能夠將表格圖像轉換為LaTeX、HTML或MarkDown格式的解決方案。它依託於DocGenome基準提供的大規模數據,為表格數據處理提供了強大支持。
[ GitHub倉庫 ] [ 相關論文 ] [ 項目網站 ]
[ 數據集🤗 ] [ 模型🤗 ] [ 演示💬 ]
🚀 快速開始
StructEqTable-Deploy是一款將表格圖像轉換為LaTeX、HTML或MarkDown格式的工具。它基於DocGenome基準的大規模數據,為表格數據處理提供了強大支持。
✨ 主要特性
表格是科學出版物、財務報表、發票、網頁等眾多場景中表示結構化數據的有效方式。從可視化的表格圖像中提取表格數據,並根據提取的數據執行下游推理任務具有挑戰性,這主要是因為表格通常具有複雜的列和行標題,以及跨單元格操作。為應對這些挑戰,我們推出了TableX,這是一個從DocGenome基準中提取的大規模多模態表格基準,用於表格預訓練,包含超過200萬高質量的圖像 - LaTeX對數據,涵蓋156個學科類別。此外,受益於如此大規模的數據,我們訓練了一個端到端模型StructEqTable,它能夠從可視化的表格圖像中精確獲取相應的LaTeX描述,並執行多個與表格相關的推理任務,包括結構提取和問答,拓寬了其應用範圍和潛力。
📦 安裝指南
conda create -n structeqtable python>=3.10
conda activate structeqtable
git clone https://github.com/UniModal4Reasoning/StructEqTable-Deploy.git
cd StructEqTable-Deploy
python setup develop
pip install "git+https://github.com/UniModal4Reasoning/StructEqTable-Deploy.git"
pip install struct-eqtable==0.3.0
💻 使用示例
基礎用法
運行demo/demo.py
:
cd tools/demo
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format latex
高級用法
輸出HTML或Markdown格式(僅StructTable-InternVL2-1B支持):
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format html markdown
高效推理
安裝LMDeploy工具包:
pip install lmdeploy
運行demo/demo.py
:
cd tools/demo
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format latex \
--lmdeploy
可視化結果
你可以將輸出的LaTeX代碼複製到demo.tex中,然後使用Overleaf進行表格可視化。

📚 詳細文檔
模型更新日誌
- [2024/12/12] 🔥 我們發佈了最新模型 StructTable-InternVL2-1B v0.2,增強了HTML和Markdown格式的識別穩定性!
- [2024/10/19] 我們發佈了最新模型StructTable-InternVL2-1B!得益於IntenrVL2強大的基礎能力,並通過在合成表格數據和DocGenome數據集上進行微調,StructTable可以將表格圖像轉換為包括LaTeX、HTML和Markdown在內的各種常見表格格式。此外,與v0.2版本相比,推理速度顯著提高。
- [2024/8/22] 我們發佈了在DocGenome數據集上微調的StructTable-base-v0.2版本。該版本通過數據增強和減少圖像令牌數量,提高了推理速度和魯棒性。
- [2024/8/08] 我們發佈了TensorRT加速版本,在GPU A100上,大多數圖像僅需約1秒。請按照教程安裝環境並編譯模型權重。
- [2024/7/30] 我們發佈了StructEqTable的第一個版本。
待辦事項
- [x] 發佈StructEqTable的推理代碼和檢查點。
- [x] 支持StructEqTable的中文版。
- [x] 使用TensorRT-LLM發佈StructEqTable的加速版本。
- [x] 擴展更多表格圖像領域,以提高模型的泛化能力。
- [x] 通過LMDeploy工具包實現StructTable-InternVL2-1B的高效推理。
- [ ] 發佈我們的表格預訓練和微調代碼
模型庫
🔧 技術細節
本項目參考了多個開源項目和基準,以下是相關的致謝信息:
📄 許可證
StructEqTable根據Apache許可證2.0發佈。
引用
如果您發現我們的模型、代碼或論文在您的研究中有用,請考慮給予 ⭐ 並進行引用 📝,謝謝!
@article{xia2024docgenome,
title={DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models},
author={Xia, Renqiu and Mao, Song and Yan, Xiangchao and Zhou, Hongbin and Zhang, Bo and Peng, Haoyang and Pi, Jiahao and Fu, Daocheng and Wu, Wenjie and Ye, Hancheng and others},
journal={arXiv preprint arXiv:2406.11633},
year={2024}
}
聯繫我們
如果您遇到任何問題或有疑問,請隨時通過zhouhongbin@pjlab.org.cn與我們聯繫。