🚀 AceMath-RL-Nemotron-7B
AceMath-RL-Nemotron-7Bは、強化学習(RL)を通じて訓練された数学推論モデルです。Deepseek-R1-Distilled-Qwen-7Bをベースに、AIME 2024やAIME 2025などのテストで高い精度を達成し、コーディング精度にも改善をもたらしました。
🚀 クイックスタート
AceMath-RL-Nemotron-7Bは、強化学習を用いてDeepseek-R1-Distilled-Qwen-7Bから訓練された数学推論モデルです。このモデルは、AIME 2024で69.0%のPass@1精度(+13.5%の向上)、AIME 2025で53.6%のPass@1精度(+14.4%の向上)を達成しています。また、LiveCodeBenchでのコーディング精度も44.4%のPass@1(+6.8%の向上)に達し、拡張された強化学習訓練の汎化能力を示しています。
詳細な訓練レシピ、訓練ログ、データキュレーションの詳細は、BLOGで公開しています。
✨ 主な機能
- 高い数学推論能力:AIME 2024やAIME 2025などの数学テストで高い精度を達成。
- コーディング精度の向上:LiveCodeBenchでのコーディング精度が向上。
- 汎化能力:強化学習訓練により、様々なタスクでの汎化能力を備える。
📦 インストール
このモデルは、transformers
ライブラリを使用して簡単にインストールできます。以下のコードを使用して、モデルとトークナイザーをロードします。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = 'nvidia/AceMath-RL-Nemotron-7B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
💻 使用例
基本的な使用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = 'nvidia/AceMath-RL-Nemotron-7B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
prompt = "Jen enters a lottery by picking $4$ distinct numbers from $S=\\{1,2,3,\\cdots,9,10\\}.$ $4$ numbers are randomly chosen from $S.$ She wins a prize if at least two of her numbers were $2$ of the randomly chosen numbers, and wins the grand prize if all four of her numbers were the randomly chosen numbers. The probability of her winning the grand prize given that she won a prize is $\\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
高度な使用法
📚 ドキュメント
評価結果
我々は、AIME 2024、AIME 2025、およびGPQAで、同等のサイズの競合する推論モデルと比較して、このモデルを評価しました。
モデル |
AIME 2024 (AVG@64) |
AIME 2025 (AVG@64) |
GPQA-Diamond (AVG@8) |
DeepSeek-R1-Distill-Qwen-7B |
55.5 |
39.2 |
49.1 |
Light-R1-7B-DS |
59.1 |
44.3 |
49.4 |
AReaL-boba-RL-7B |
61.9 |
48.3 |
47.6 |
Llama-Nemotron-Nano-v1 (8B) |
63.8 |
47.1 |
54.1 |
Skywork-OR1-Math-7B-Preview |
69.8 |
52.3 |
- |
AceMath-RL-Nemotron-7B 🤗 |
69.0 |
53.6 |
52.1 |
また、追加の数学ベンチマークとLiveCodeBenchでもモデルを評価し、より包括的な評価を行いました。
モデル |
GSM8K (AVG@1) |
MATH500 (AVG@4) |
Minerva Math (AVG@1) |
GaoKao2023En (AVG@1) |
Olympiad Bench (AVG@1) |
College Math (AVG@1) |
ACM23 (AVG@5) |
LiveCodeBench (AVG@8) |
DeepSeek-R1-Distill-Qwen-7B |
92.7 |
92.8 |
57.4 |
82.3 |
58.2 |
56.7 |
89.0 |
37.6 |
AceMath-RL-Nemotron-7B 🤗 |
93.3 |
94.1 |
56.6 |
85.5 |
66.7 |
59.8 |
94.0 |
44.4 |
使用上の推奨事項
- システムプロンプトを含めず、すべての指示をユーザープロンプトに直接記述してください。
- 数学の質問には、以下のプロンプト形式を使用することをおすすめします。
<|begin▁of▁sentence|><|User|>{math_question}\nPlease reason step by step, and put your final answer within \boxed{}.<|Assistant|><think>\n
問い合わせ先
- Yang Chen (yachen@nvidia.com)
- Zihan Liu (zihanl@nvidia.com)
- Chankyu Lee (chankyul@nvidia.com)
- Wei Ping (wping@nvidia.com)
📄 ライセンス
このモデルの使用は、NVIDIA Open Model Licenseに従います。
引用
@article{acemath2024,
title={AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling},
author={Liu, Zihan and Chen, Yang and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
journal={arXiv preprint},
year={2024}
}