🚀 MathCoder-VL: 高度なマルチモーダル数学的推論のためにビジョンとコードを架橋する
MathCoder-VLは、一般的な数学問題解決に特化したオープンソースの大規模マルチモーダルモデル(LMMs)のシリーズです。画像からコードへの変換モデルであるFigCodifier-8Bも導入しています。
リポジトリ: https://github.com/mathllm/MathCoder
論文: https://huggingface.co/papers/2505.10557
プロパティ |
詳細 |
ライセンス |
Apache-2.0 |
評価指標 |
正解率 |
パイプラインタグ |
画像-テキストからテキスト |
タグ |
数学、推論、マルチモーダルQA、数学QA、図QA、幾何学QA、数学ワード問題、教科書QA、VQA、幾何学図、合成シーン、チャート、プロット、科学図、表、関数プロット、抽象シーン、パズルテスト、文書画像、科学 |
ライブラリ名 |
transformers |
ベースモデル |
OpenGVLab/InternVL2-8B |
データセット |
MathLLMs/MM-MathInstruct |
🚀 クイックスタート
概要
MathCoder-VLは、一般的な数学問題解決に特化したオープンソースの大規模マルチモーダルモデル(LMMs)のシリーズです。また、画像からコードへの変換モデルであるFigCodifier-8Bも導入しています。
モデル比較
💻 使用例
基本的な使用法
トレーニングと推論のコードについては、InternVLを参照してください。
from datasets import load_dataset
from PIL import Image
from io import BytesIO
mm_mathinstruct = load_dataset("MathLLMs/MM-MathInstruct")
print(mm_mathinstruct)
img = Image.open(BytesIO(mm_mathinstruct['train'][-1]['image']))
img.show()
このコードを実行すると、以下のような出力が得られます。
DatasetDict({
train: Dataset({
features: ['id', 'image', 'question', 'solution', 'image_path'],
num_rows: 2871988
})
})
📚 ドキュメント
モデルの構築
FigCodifierの構築
MathCoder-VLの構築
パフォーマンス
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で公開されています。
🔖 引用
当社のデータ、モデル、またはコードを使用する場合は、以下の論文を引用してください。
@inproceedings{
wang2025mathcodervl,
title={MathCoder-{VL}: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning},
author={Ke Wang and Junting Pan and Linda Wei and Aojun Zhou and Weikang Shi and Zimu Lu and Han Xiao and Yunqiao Yang and Houxing Ren and Mingjie Zhan and Hongsheng Li},
booktitle={The 63rd Annual Meeting of the Association for Computational Linguistics},
year={2025},
url={https://openreview.net/forum?id=nuvtX1imAb}
}
@inproceedings{
lu2025mathcoder2,
title={MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code},
author={Zimu Lu and Aojun Zhou and Ke Wang and Houxing Ren and Weikang Shi and Junting Pan and Mingjie Zhan and Hongsheng Li},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=1Iuw1jcIrf}
}
@inproceedings{
wang2024mathcoder,
title={MathCoder: Seamless Code Integration in {LLM}s for Enhanced Mathematical Reasoning},
author={Ke Wang and Houxing Ren and Aojun Zhou and Zimu Lu and Sichun Luo and Weikang Shi and Renrui Zhang and Linqi Song and Mingjie Zhan and Hongsheng Li},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=z8TW0ttBPp}
}