🚀 StructEqTable-Deploy: テーブルからLaTeXへの変換を行う高効率オープンソースツールキット
StructEqTable-Deployは、DocGenomeベンチマーク の拡張可能なデータを活用して、表の画像をLaTeX/HTML/MarkDownに変換するソリューションです。
[[ Githubリポジトリ ]](https://github.com/UniModal4Reasoning/StructEqTable-Deploy) [[ 関連論文 ]](https://arxiv.org/abs/2406.11633) [[ ウェブサイト ]](https://unimodal4reasoning.github.io/DocGenome_page/)
[ データセット🤗 ] [ モデル🤗 ] [ デモ💬 ]
🚀 クイックスタート
StructEqTable-Deployは、表の画像をLaTeX/HTML/MarkDownに変換するソリューションです。このツールは、DocGenomeベンチマーク から抽出された大規模なマルチモーダル表ベンチマークであるTableXを活用しています。
✨ 主な機能
表は、科学出版物、財務諸表、請求書、ウェブページなど、多くのシナリオで構造化データを表現する効果的な方法です。視覚的な表画像から表データを抽出し、抽出されたデータに基づいて下流の推論タスクを実行することは、表が多くの場合、セルの結合操作を伴う複雑な列と行のヘッダーを持っているため、困難です。これらの課題に対処するために、我々はTableXを提案します。これは、DocGenomeベンチマーク から抽出された大規模なマルチモーダル表ベンチマークで、156の学科分野をカバーする200万以上の高品質な画像-LaTeXペアデータで構成されています。また、この大規模なデータの恩恵を受けて、我々はエンドツーエンドのモデルであるStructEqTableを訓練しました。このモデルは、視覚的な表画像から対応するLaTeX記述を正確に取得し、構造抽出や質問応答など、複数の表関連の推論タスクを実行する能力を提供し、その応用範囲と可能性を広げます。
📦 インストール
conda create -n structeqtable python>=3.10
conda activate structeqtable
git clone https://github.com/UniModal4Reasoning/StructEqTable-Deploy.git
cd StructEqTable-Deploy
python setup develop
pip install "git+https://github.com/UniModal4Reasoning/StructEqTable-Deploy.git"
pip install struct-eqtable==0.3.0
📚 ドキュメント
モデル一覧
クイックデモ
cd tools/demo
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format latex
- HTMLまたはMarkdown形式の出力 (StructTable-InternVL2-1Bのみサポート)
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format html markdown
効率的な推論
pip install lmdeploy
cd tools/demo
python demo.py \
--image_path ./demo.png \
--ckpt_path U4R/StructTable-InternVL2-1B \
--output_format latex \
--lmdeploy
🔧 技術詳細
変更履歴
- [2024/12/12] 🔥 最新モデル StructTable-InternVL2-1B v0.2 をリリースしました!HTMLおよびMarkdown形式の認識安定性が向上しています。
- [2024/10/19] 最新モデルStructTable-InternVL2-1Bをリリースしました!
IntenrVL2の強力な基礎能力に感謝し、合成表データとDocGenomeデータセットでの微調整を通じて、StructTableは表画像をLaTeX、HTML、Markdownを含むさまざまな一般的な表形式に変換できます。さらに、推論速度はv0.2バージョンと比較して大幅に向上しています。
- [2024/8/22] DocGenomeデータセットで微調整されたStructTable-base-v0.2をリリースしました。このバージョンは、データ拡張と画像トークン数の削減により、推論速度とロバスト性が向上しています。
- [2024/8/08] TensorRTで加速されたバージョンをリリースしました。GPU A100では、ほとんどの画像に対して約1秒で推論できます。環境のインストールとモデルの重みのコンパイルについては、チュートリアルに従ってください。
- [2024/7/30] StructEqTableの最初のバージョンをリリースしました。
今後の予定
- [x] StructEqTableの推論コードとチェックポイントを公開する
- [x] StructEqTableの中国語版をサポートする
- [x] TensorRT-LLMを使用したStructEqTableの加速版を提供する
- [x] 表画像のより多くのドメインを拡張し、モデルの汎化能力を向上させる
- [x] LMDeploy ツールキットによるStructTable-InternVL2-1Bの効率的な推論を実現する
- [ ] 表の事前学習と微調整コードを公開する
📄 ライセンス
StructEqTableは Apache License 2.0 の下でリリースされています。
謝辞
引用
もしあなたが我々のモデル/コード/論文をあなたの研究で役立てた場合、⭐を付けて引用していただけると幸いです😊
@article{xia2024docgenome,
title={DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models},
author={Xia, Renqiu and Mao, Song and Yan, Xiangchao and Zhou, Hongbin and Zhang, Bo and Peng, Haoyang and Pi, Jiahao and Fu, Daocheng and Wu, Wenjie and Ye, Hancheng and others},
journal={arXiv preprint arXiv:2406.11633},
year={2024}
}
お問い合わせ
何か問題や質問がある場合は、zhouhongbin@pjlab.org.cn までお気軽にご連絡ください。