MathCoder - VL - 8Bオープンソースマルチモーダルモデル - 無料で一般的な数学問題の解決をサポートし、推論能力を強化！

ホーム

Mathcoder VL 8B

MathLLMsによって開発

MathCoder-VLシリーズのオープンソース大規模マルチモーダルモデルで、汎用数学問題解決のために設計され、視覚とコードを組み合わせて数学推論能力を強化します。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル数学推論 #画像からコードへの変換 #幾何図表解析

ダウンロード数 17

リリース時間 : 5/15/2025

モデル概要

MathCoder-VLはマルチモーダル大規模モデルで、汎用数学問題の解決に焦点を当て、視覚とコードを結びつけることで数学推論能力を強化します。

モデル特徴

マルチモーダル数学推論

視覚とテキスト情報を組み合わせて数学問題を解決し、図表、幾何学図形など様々な数学表現形式をサポートします。

コード強化推論

コード生成と実行を通じて数学推論能力を強化し、数学問題のプログラム化された解決をサポートします。

広範な数学分野カバレッジ

幾何学、代数、関数グラフ、科学図表など様々な数学分野の推論タスクをサポートします。

モデル能力

マルチモーダル数学推論

画像テキスト変換

数学問題解決

図表理解

幾何学推論

コード生成

使用事例

教育

数学教材問題解答

教材中の数学問題を理解し解答するのを支援し、図表や文章説明を含みます。

学習効率を向上させ、数学理解能力を強化します。

幾何学図形推論

幾何学図形を通じて推論や問題解決を行い、角度計算、面積求解などが可能です。

幾何学問題を正確に解答し、幾何学学習を支援します。

研究

科学図表分析

科学実験中の図表データを分析し、キー情報を抽出して推論を行います。

研究者がデータ分析と解釈を行うのを支援します。

🚀 MathCoder-VL: 高度なマルチモーダル数学的推論のためにビジョンとコードを架橋する

MathCoder-VLは、一般的な数学問題解決に特化したオープンソースの大規模マルチモーダルモデル（LMMs）のシリーズです。画像からコードへの変換モデルであるFigCodifier-8Bも導入しています。

リポジトリ: https://github.com/mathllm/MathCoder

論文: https://huggingface.co/papers/2505.10557

プロパティ	詳細
ライセンス	Apache-2.0
評価指標	正解率
パイプラインタグ	画像-テキストからテキスト
タグ	数学、推論、マルチモーダルQA、数学QA、図QA、幾何学QA、数学ワード問題、教科書QA、VQA、幾何学図、合成シーン、チャート、プロット、科学図、表、関数プロット、抽象シーン、パズルテスト、文書画像、科学
ライブラリ名	transformers
ベースモデル	OpenGVLab/InternVL2-8B
データセット	MathLLMs/MM-MathInstruct

🚀 クイックスタート

概要

MathCoder-VLは、一般的な数学問題解決に特化したオープンソースの大規模マルチモーダルモデル（LMMs）のシリーズです。また、画像からコードへの変換モデルであるFigCodifier-8Bも導入しています。

モデル比較

ベースモデル	当社のモデル
Mini-InternVL-Chat-2B-V1-5	MathCoder-VL-2B
InternVL2-8B	MathCoder-VL-8B
InternVL2-8B	FigCodifier-8B

💻 使用例

基本的な使用法

トレーニングと推論のコードについては、InternVLを参照してください。

from datasets import load_dataset
from PIL import Image
from io import BytesIO

mm_mathinstruct = load_dataset("MathLLMs/MM-MathInstruct")
print(mm_mathinstruct)

# show the last image
img = Image.open(BytesIO(mm_mathinstruct['train'][-1]['image']))
img.show()

このコードを実行すると、以下のような出力が得られます。

DatasetDict({
    train: Dataset({
        features: ['id', 'image', 'question', 'solution', 'image_path'],
        num_rows: 2871988
    })
})

📚 ドキュメント

モデルの構築

FigCodifierの構築

MathCoder-VLの構築

パフォーマンス

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で公開されています。

🔖 引用

当社のデータ、モデル、またはコードを使用する場合は、以下の論文を引用してください。

@inproceedings{
wang2025mathcodervl,
title={MathCoder-{VL}: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning},
author={Ke Wang and Junting Pan and Linda Wei and Aojun Zhou and Weikang Shi and Zimu Lu and Han Xiao and Yunqiao Yang and Houxing Ren and Mingjie Zhan and Hongsheng Li},
booktitle={The 63rd Annual Meeting of the Association for Computational Linguistics},
year={2025},
url={https://openreview.net/forum?id=nuvtX1imAb}
}

@inproceedings{
lu2025mathcoder2,
title={MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code},
author={Zimu Lu and Aojun Zhou and Ke Wang and Houxing Ren and Weikang Shi and Junting Pan and Mingjie Zhan and Hongsheng Li},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=1Iuw1jcIrf}
}

@inproceedings{
wang2024mathcoder,
title={MathCoder: Seamless Code Integration in {LLM}s for Enhanced Mathematical Reasoning},
author={Ke Wang and Houxing Ren and Aojun Zhou and Zimu Lu and Sichun Luo and Weikang Shi and Renrui Zhang and Linqi Song and Mingjie Zhan and Hongsheng Li},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=z8TW0ttBPp}
}