AceReason-Nemotron-14B-GGUFオープンソースモデル - 強化学習による数学とプログラミング推論の強化

ホーム

Acereason Nemotron 14B GGUF

unslothによって開発

強化学習で訓練された数学とプログラミング推論モデルで、複数のベンチマークテストで優れた性能を発揮

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #強化学習推論 #数学プログラミング両優 #RL性能突破

ダウンロード数 1,417

リリース時間 : 5/23/2025

モデル概要

AceReason-Nemotron-14Bは完全に強化学習で訓練された数学とプログラミング推論モデルで、DeepSeek-R1-Distilled-Qwen-14Bを基に開発され、数学とプログラミング推論タスクで顕著な向上を達成しました。

モデル特徴

強化学習訓練

完全に強化学習で訓練され、数学とプログラミング推論能力が大幅に向上

2段階訓練方法

最初に純粋な数学プロンプトでRL訓練を行い、その後純粋なプログラミングプロンプトでRL訓練を実施

分野横断的向上

純粋数学RLは数学能力だけでなく、プログラミング推論性能も向上させた

Unsloth最適化

Unsloth Dynamic 2.0を採用し、他の量子化手法を超える卓越した精度を実現

モデル能力

数学推論

プログラミング推論

複雑問題解決

コード生成

使用事例

数学競技

AIME競技問題解答

アメリカ数学招待試験(AIME)問題を解決

AIME 2024で78.6%達成、8.9%向上

プログラミング競技

LiveCodeBenchテスト

プログラミング競技問題を解決

LiveCodeBench v5で61.1%達成、8%向上

Codeforces競技

Codeforcesプログラミング問題を解決

Codeforcesスコア543点上昇

教育

数学学習支援

学生が複雑な数学問題を理解し解決するのを支援

プログラミング学習支援

アルゴリズムとプログラミング技術の学習を補助

🚀 AceReason-Nemotron: 強化学習による数学とコード推論の進化

AceReason-Nemotron-14Bは、DeepSeek-R1-Distilled-Qwen-14Bをベースに、完全に強化学習（RL）を通じて学習された数学とコード推論モデルです。このモデルは、AIME 2024で78.6%（+8.9%）、AIME 2025で67.4%（+17.4%）、LiveCodeBench v5で61.1%（+8%）、LiveCodeBench v6で54.9%（+7%）、Codeforces 2024で543点の向上を達成するなど、印象的な結果をもたらします。

我々は、広範なアブレーション研究を通じてRLの学習プロセスを体系的に研究し、数学のみのプロンプトでのRL学習を行い、その後コードのみのプロンプトでのRL学習を行うという、シンプルでありながら効果的なアプローチを提案しました。特に、数学のみのRLは、強力な蒸留モデルの数学ベンチマークでの性能を大幅に向上させるだけでなく、コード推論タスクでも有効であることがわかりました。また、コードのみのRLを拡張することで、コードベンチマークの性能がさらに向上し、数学の結果の低下は最小限に抑えられます。我々は、RLが事前学習や教師あり微調整（例えば蒸留）の過程で獲得された基礎的な推論能力を引き出すだけでなく、モデルの推論能力の限界を押し広げ、以前は解けなかった問題を解くことを可能にすることを見出しました。

我々は、学習方法や学習ログを技術レポートで公開しています。

Unsloth Dynamic 2.0 は、他の主要な量子化手法を上回る精度を達成します。

🚀 クイックスタート

このモデルは、数学とコードの推論に特化しており、強化学習によって高度な性能を実現しています。以下の手順で簡単に使用することができます。

✨ 主な機能

数学とコードの推論において高い精度を達成
強化学習による学習方法で、モデルの推論能力を最大化
数学のみのRLとコードのみのRLを組み合わせたアプローチで、数学とコードの性能をバランスよく向上

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコードを実行して、モデルを読み込むことができます。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = 'nvidia/AceReason-Nemotron-14B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = 'nvidia/AceReason-Nemotron-14B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

prompt = "Jen enters a lottery by picking $4$ distinct numbers from $S=\\{1,2,3,\\cdots,9,10\\}.$ $4$ numbers are randomly chosen from $S.$ She wins a prize if at least two of her numbers were $2$ of the randomly chosen numbers, and wins the grand prize if all four of her numbers were the randomly chosen numbers. The probability of her winning the grand prize given that she won a prize is $\\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$."
messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
    temperature=0.6,
    top_p=0.95
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

高度な使用法

このモデルを使用する際の推奨事項を以下に示します。

⚠️ 重要提示

システムプロンプトを含めず、すべての指示を直接ユーザープロンプトに記載してください。

💡 使用建议

数学の質問には、「Please reason step by step, and put your final answer within \boxed{}.」という指示を使用することをおすすめします。

コードの質問には、「Write Python code to solve the problem. Please place the solution code in the following format:

# Your solution code here

という指示を使用することをおすすめします。

📚 ドキュメント

我々は、モデルの評価結果や学習方法に関する詳細な情報を技術レポートで公開しています。また、以下の表には、Qwen2.5やLlama3.1モデルファミリー内の同等のサイズの競合する推論モデルとの比較評価結果を示しています。

Property	Details
ベースモデル	nvidia/AceReason-Nemotron-14B
ライブラリ名	transformers
パイプラインタグ	テキスト生成
言語	en
タグ	nvidia, unsloth, reasoning, math, code, reinforcement learning, pytorch

モデル	AIME 2024 (avg@64)	AIME 2025 (avg@64)	LCB v5 (avg@8)	LCB v6 (avg@8)
QwQ-32B	79.5	65.8	63.4	-
DeepSeek-R1-671B	79.8	70.0	65.9	-
Llama-Nemotron-Ultra-253B	80.8	72.5	66.3	-
o3-mini (medium)	79.6	76.7	67.4	-
Light-R1-14B	74	60.2	57.9	51.5
DeepCoder-14B (32K Inference)	71	56.1	57.9	50.4
OpenMath-Nemotron-14B	76.3	63.0	-	-
OpenCodeReasoning-Nemotron-14B	-	-	59.4	54.1
Llama-Nemotron-Super-49B-v1	67.5	60.0	45.5	-
DeepSeek-R1-Distilled-Qwen-14B	69.7	50.2	53.1	47.9
DeepSeek-R1-Distilled-Qwen-32B	72.6	54.9	57.2	-
AceReason-Nemotron-14B ðŸ¤—	78.6	67.4	61.1	54.9

📄 ライセンス

このモデルの使用は、NVIDIA Open Model Licenseに従います。

引用

@article{acereason2025,
  title={AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning},
  author={Chen, Yang and Yang, Zhuolin and Liu, Zihan and Lee, Chankyu and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
  journal={arXiv preprint},
  year={2025}
}