AceMath-RL-Nemotron-7Bオープンソース数学求解モデル - 代数、幾何、微積分などの問題を無料で解く

ホーム

Acemath RL Nemotron 7B

nvidiaによって開発

深層学習に基づく数学問題自動解決システム、代数、幾何、微積分など様々な数学問題に対応

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #ステップバイステップ解法 #数学的推論 #教育支援

ダウンロード数 2,990

リリース時間 : 4/25/2025

モデル概要

自然言語で記述された数学問題を理解し、多段階推論を通じて解答プロセスと最終答えを生成するために特別に設計されたモデル

モデル特徴

多段階推論能力

複雑な問題を複数の推論ステップに分解し、人間の解答思考プロセスを模倣

マルチモーダル理解

テキストとLaTeX形式の数式処理をサポート

説明生成

答えだけでなく詳細なステップ解説も提供

モデル能力

代数方程式の解法

幾何学証明

微積分計算

確率統計

数学的帰納法

使用事例

教育支援

自動採点

学生の解答ステップの正しさを自動チェック

精度92.3%（MathEvalベンチマークテスト）

研究支援

式導出検証

研究者が数学的導出プロセスの正しさを検証するのを支援

🚀 AceMath-RL-Nemotron-7B

AceMath-RL-Nemotron-7Bは、強化学習（RL）を通じて訓練された数学推論モデルです。Deepseek-R1-Distilled-Qwen-7Bをベースに、AIME 2024やAIME 2025などのテストで高い精度を達成し、コーディング精度にも改善をもたらしました。

🚀 クイックスタート

AceMath-RL-Nemotron-7Bは、強化学習を用いてDeepseek-R1-Distilled-Qwen-7Bから訓練された数学推論モデルです。このモデルは、AIME 2024で69.0%のPass@1精度（+13.5%の向上）、AIME 2025で53.6%のPass@1精度（+14.4%の向上）を達成しています。また、LiveCodeBenchでのコーディング精度も44.4%のPass@1（+6.8%の向上）に達し、拡張された強化学習訓練の汎化能力を示しています。

詳細な訓練レシピ、訓練ログ、データキュレーションの詳細は、BLOGで公開しています。

✨ 主な機能

高い数学推論能力：AIME 2024やAIME 2025などの数学テストで高い精度を達成。
コーディング精度の向上：LiveCodeBenchでのコーディング精度が向上。
汎化能力：強化学習訓練により、様々なタスクでの汎化能力を備える。

📦 インストール

このモデルは、transformersライブラリを使用して簡単にインストールできます。以下のコードを使用して、モデルとトークナイザーをロードします。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = 'nvidia/AceMath-RL-Nemotron-7B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = 'nvidia/AceMath-RL-Nemotron-7B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

prompt = "Jen enters a lottery by picking $4$ distinct numbers from $S=\\{1,2,3,\\cdots,9,10\\}.$ $4$ numbers are randomly chosen from $S.$ She wins a prize if at least two of her numbers were $2$ of the randomly chosen numbers, and wins the grand prize if all four of her numbers were the randomly chosen numbers. The probability of her winning the grand prize given that she won a prize is $\\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$."
messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
    temperature=0.6,
    top_p=0.95
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

高度な使用法

# 高度な使用法についての説明
# システムプロンプトを含めず、すべての指示をユーザープロンプトに直接記述することをおすすめします。
# 数学の質問には、以下のプロンプト形式を使用することをおすすめします。
# *<｜begin▁of▁sentence｜><｜User｜>{math_question}\nPlease reason step by step, and put your final answer within \boxed{}.<｜Assistant｜>\<think\>\n*

# ここに高度な使用法のコードを記述

📚 ドキュメント

評価結果

我々は、AIME 2024、AIME 2025、およびGPQAで、同等のサイズの競合する推論モデルと比較して、このモデルを評価しました。

モデル	AIME 2024 (AVG@64)	AIME 2025 (AVG@64)	GPQA-Diamond (AVG@8)
DeepSeek-R1-Distill-Qwen-7B	55.5	39.2	49.1
Light-R1-7B-DS	59.1	44.3	49.4
AReaL-boba-RL-7B	61.9	48.3	47.6
Llama-Nemotron-Nano-v1 (8B)	63.8	47.1	54.1
Skywork-OR1-Math-7B-Preview	69.8	52.3	-
AceMath-RL-Nemotron-7B 🤗	69.0	53.6	52.1

また、追加の数学ベンチマークとLiveCodeBenchでもモデルを評価し、より包括的な評価を行いました。

モデル	GSM8K (AVG@1)	MATH500 (AVG@4)	Minerva Math (AVG@1)	GaoKao2023En (AVG@1)	Olympiad Bench (AVG@1)	College Math (AVG@1)	ACM23 (AVG@5)	LiveCodeBench (AVG@8)
DeepSeek-R1-Distill-Qwen-7B	92.7	92.8	57.4	82.3	58.2	56.7	89.0	37.6
AceMath-RL-Nemotron-7B 🤗	93.3	94.1	56.6	85.5	66.7	59.8	94.0	44.4

使用上の推奨事項

システムプロンプトを含めず、すべての指示をユーザープロンプトに直接記述してください。
数学の質問には、以下のプロンプト形式を使用することをおすすめします。 <｜begin▁of▁sentence｜><｜User｜>{math_question}\nPlease reason step by step, and put your final answer within \boxed{}.<｜Assistant｜><think>\n

問い合わせ先

Yang Chen (yachen@nvidia.com)
Zihan Liu (zihanl@nvidia.com)
Chankyu Lee (chankyul@nvidia.com)
Wei Ping (wping@nvidia.com)

📄 ライセンス

このモデルの使用は、NVIDIA Open Model Licenseに従います。

引用

@article{acemath2024,
  title={AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling},
  author={Liu, Zihan and Chen, Yang and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
  journal={arXiv preprint},
  year={2024}
}