🚀 StructEqTable-Deploy:高效开源的表格转LaTeX工具包
StructEqTable-Deploy是一款能够将表格图像转换为LaTeX、HTML或MarkDown格式的解决方案。它依托于DocGenome基准提供的大规模数据,为表格数据处理提供了强大支持。
[ GitHub仓库 ] [ 相关论文 ] [ 项目网站 ]
[ 数据集🤗 ] [ 模型🤗 ] [ 演示💬 ]
🚀 快速开始
StructEqTable-Deploy是一款将表格图像转换为LaTeX、HTML或MarkDown格式的工具。它基于DocGenome基准的大规模数据,为表格数据处理提供了强大支持。
✨ 主要特性
表格是科学出版物、财务报表、发票、网页等众多场景中表示结构化数据的有效方式。从可视化的表格图像中提取表格数据,并根据提取的数据执行下游推理任务具有挑战性,这主要是因为表格通常具有复杂的列和行标题,以及跨单元格操作。为应对这些挑战,我们推出了TableX,这是一个从DocGenome基准中提取的大规模多模态表格基准,用于表格预训练,包含超过200万高质量的图像 - LaTeX对数据,涵盖156个学科类别。此外,受益于如此大规模的数据,我们训练了一个端到端模型StructEqTable,它能够从可视化的表格图像中精确获取相应的LaTeX描述,并执行多个与表格相关的推理任务,包括结构提取和问答,拓宽了其应用范围和潜力。
📦 安装指南
conda create -n structeqtable python>=3.10
conda activate structeqtable
git clone https://github.com/UniModal4Reasoning/StructEqTable-Deploy.git
cd StructEqTable-Deploy
python setup develop
pip install "git+https://github.com/UniModal4Reasoning/StructEqTable-Deploy.git"
pip install struct-eqtable==0.3.0
💻 使用示例
基础用法
运行demo/demo.py
:
cd tools/demo
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format latex
高级用法
输出HTML或Markdown格式(仅StructTable-InternVL2-1B支持):
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format html markdown
高效推理
安装LMDeploy工具包:
pip install lmdeploy
运行demo/demo.py
:
cd tools/demo
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format latex \
--lmdeploy
可视化结果
你可以将输出的LaTeX代码复制到demo.tex中,然后使用Overleaf进行表格可视化。

📚 详细文档
模型更新日志
- [2024/12/12] 🔥 我们发布了最新模型 StructTable-InternVL2-1B v0.2,增强了HTML和Markdown格式的识别稳定性!
- [2024/10/19] 我们发布了最新模型StructTable-InternVL2-1B!得益于IntenrVL2强大的基础能力,并通过在合成表格数据和DocGenome数据集上进行微调,StructTable可以将表格图像转换为包括LaTeX、HTML和Markdown在内的各种常见表格格式。此外,与v0.2版本相比,推理速度显著提高。
- [2024/8/22] 我们发布了在DocGenome数据集上微调的StructTable-base-v0.2版本。该版本通过数据增强和减少图像令牌数量,提高了推理速度和鲁棒性。
- [2024/8/08] 我们发布了TensorRT加速版本,在GPU A100上,大多数图像仅需约1秒。请按照教程安装环境并编译模型权重。
- [2024/7/30] 我们发布了StructEqTable的第一个版本。
待办事项
- [x] 发布StructEqTable的推理代码和检查点。
- [x] 支持StructEqTable的中文版。
- [x] 使用TensorRT-LLM发布StructEqTable的加速版本。
- [x] 扩展更多表格图像领域,以提高模型的泛化能力。
- [x] 通过LMDeploy工具包实现StructTable-InternVL2-1B的高效推理。
- [ ] 发布我们的表格预训练和微调代码
模型库
🔧 技术细节
本项目参考了多个开源项目和基准,以下是相关的致谢信息:
📄 许可证
StructEqTable根据Apache许可证2.0发布。
引用
如果您发现我们的模型、代码或论文在您的研究中有用,请考虑给予 ⭐ 并进行引用 📝,谢谢!
@article{xia2024docgenome,
title={DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models},
author={Xia, Renqiu and Mao, Song and Yan, Xiangchao and Zhou, Hongbin and Zhang, Bo and Peng, Haoyang and Pi, Jiahao and Fu, Daocheng and Wu, Wenjie and Ye, Hancheng and others},
journal={arXiv preprint arXiv:2406.11633},
year={2024}
}
联系我们
如果您遇到任何问题或有疑问,请随时通过zhouhongbin@pjlab.org.cn与我们联系。