Acereason Nemotron 7B GGUF
AceReason-Nemotron-7Bは強化学習に基づいて訓練された数学とコードの推論モデルで、DeepSeek-R1-Distilled-Qwen-7Bから訓練を開始し、複数の基準テストで優れた成績を収めています。
ダウンロード数 326
リリース時間 : 6/13/2025
モデル概要
このモデルは数学とコードの推論タスクに特化しており、強化学習による訓練で性能を向上させ、複雑な数学問題やプログラミングの課題を解くのに適しています。
モデル特徴
強化学習訓練
完全に強化学習によって訓練され、数学とコードの推論能力が大幅に向上します。
優れた性能表現
AIME 2024、AIME 2025、LiveCodeBench v5およびv6などの基準テストで著しい向上を達成しました。
効果的な訓練方法
まず数学のプロンプトに対して強化学習訓練を行い、次にコードのプロンプトに対して訓練を行い、性能表現を最適化します。
モデル能力
数学問題の解決
コード生成
複雑な推論
使用事例
教育
数学コンテスト問題の解答
複雑な数学コンテストの問題、例えばAIMEコンテストの問題を解きます。
AIME 2024で69.0%の正解率を達成しました。
プログラミング
コード生成と最適化
Pythonコードを生成して最適化し、プログラミングの問題を解きます。
LiveCodeBench v5で51.8%の正解率を達成しました。
🚀 QuantFactory/AceReason-Nemotron-7B-GGUF
このモデルは、llama.cppを使用して作成されたnvidia/AceReason-Nemotron-7Bの量子化バージョンです。
🚀 クイックスタート
このセクションでは、AceReason-Nemotron-7B-GGUFモデルの基本的な使い方を説明します。
モデルの読み込み
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = 'nvidia/AceReason-Nemotron-7B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
推論の実行
prompt = "Jen enters a lottery by picking $4$ distinct numbers from $S=\\{1,2,3,\\cdots,9,10\\}.$ $4$ numbers are randomly chosen from $S.$ She wins a prize if at least two of her numbers were $2$ of the randomly chosen numbers, and wins the grand prize if all four of her numbers were the randomly chosen numbers. The probability of her winning the grand prize given that she won a prize is $\\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主な機能
AceReason-Nemotron-7Bは、強化学習(RL)を通じて完全に訓練された数学とコードの推論モデルです。DeepSeek-R1-Distilled-Qwen-7Bをベースに、以下のような優れた性能を発揮します。
- AIME 2024で69.0%(+14.5%)、AIME 2025で53.6%(+17.4%)、LiveCodeBench v5で51.8%(+8%)、LiveCodeBench v6で44.1%(+7%)のスコアを達成。
- 数学のみのプロンプトでの強化学習を最初に行い、次にコードのみのプロンプトでの強化学習を行うというシンプルで効果的なアプローチを提案。
- 数学のみの強化学習が、数学ベンチマークだけでなくコード推論タスクの性能も大幅に向上させることがわかった。
- コードのみの強化学習を拡張することで、コードベンチマークの性能がさらに向上し、数学の結果の低下は最小限に抑えられる。
📦 インストール
インストールに関する具体的な手順は、元のドキュメントに記載されていません。
💻 使用例
基本的な使用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = 'nvidia/AceReason-Nemotron-7B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
prompt = "Jen enters a lottery by picking $4$ distinct numbers from $S=\\{1,2,3,\\cdots,9,10\\}.$ $4$ numbers are randomly chosen from $S.$ She wins a prize if at least two of her numbers were $2$ of the randomly chosen numbers, and wins the grand prize if all four of her numbers were the randomly chosen numbers. The probability of her winning the grand prize given that she won a prize is $\\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
高度な使用法
# 数学問題の場合の推奨指示
question = "数学問題の内容"
instruction = "Please reason step by step, and put your final answer within \\boxed{}."
final_prompt = "<|User|>" + question + instruction + "<|Assistant|><think>\n"
# コード問題の場合の推奨指示
question = "コード問題の内容"
starter_code = "" # スターターコードの関数ヘッダー
code_instruction_nostartercode = """Write Python code to solve the problem. Please place the solution code in the following format:\n```python\n# Your solution code here\n```"""
code_instruction_hasstartercode = """Please place the solution code in the following format:\n```python\n# Your solution code here\n```"""
if starter_code != "":
question += "\n\n" + "Solve the problem starting with the provided function header.\n\nFunction header:\n" + "```\n" + starter_code + "\n```"
question += "\n\n" + code_instruction_hasstartercode
else:
question += "\n\n" + code_instruction_nostartercode
final_prompt = "<|User|>" + question + "<|Assistant|><think>\n"
📚 ドキュメント
結果
AceReason-Nemotron-7Bモデルを、Qwen2.5およびLlama3.1モデルファミリー内の同等のサイズの競合する推論モデルと比較して評価しました。評価は、AIME 2024、AIME 2025、LiveCodeBench v5(2024/08/01 - 2025/02/01)、およびLiveCodeBench v6(2025/02/01 - 2025/05/01)で行われました。
モデル | AIME 2024 (avg@64) |
AIME 2025 (avg@64) |
LCB v5 (avg@8) |
LCB v6 (avg@8) |
---|---|---|---|---|
QwQ-32B | 79.5 | 65.8 | 63.4 | - |
DeepSeek-R1-671B | 79.8 | 70.0 | 65.9 | - |
Llama-Nemotron-Ultra-253B | 80.8 | 72.5 | 66.3 | - |
o3-mini (medium) | 79.6 | 76.7 | 67.4 | - |
Light-R1-7B | 59.1 | 44.3 | 40.6 | 36.4 |
Light-R1-14B | 74 | 60.2 | 57.9 | 51.5 |
DeepCoder-14B (32K Inference) | 71 | 56.1 | 57.9 | 50.4 |
OpenMath-Nemotron-7B | 74.8 | 61.2 | - | - |
OpenCodeReasoning-Nemotron-7B | - | - | 51.3 | 46.1 |
Llama-Nemotron-Nano-8B-v1 | 61.3 | 47.1 | 46.6 | 46.2 |
DeepSeek-R1-Distilled-Qwen-7B | 55.5 | 39.0 | 37.6 | 34.1 |
DeepSeek-R1-Distilled-Qwen-14B | 69.7 | 50.2 | 53.1 | 47.9 |
DeepSeek-R1-Distilled-Qwen-32B | 72.6 | 54.9 | 57.2 | - |
AceReason-Nemotron-7B 🤖 | 69.0 | 53.6 | 51.8 | 44.1 |
AceReason-Nemotron-14B 🤖 | 78.6 | 67.4 | 61.1 | 54.9 |
評価ツールキット
評価コード、スクリプト、キャッシュされた予測ファイルについては、AceReason Evalutionを確認してください。
対応者
- Yang Chen (yachen@nvidia.com)
- Zhuolin Yang (zhuoliny@nvidia.com)
- Zihan Liu (zihanl@nvidia.com)
- Chankyu Lee (chankyul@nvidia.com)
- Wei Ping (wping@nvidia.com)
🔧 技術詳細
強化学習を用いたモデルの訓練に関する詳細な技術情報は、技術レポート 2505.16400-Technical_Report で公開されています。
📄 ライセンス
このモデルの使用は、NVIDIA Open Model Licenseに従います。
引用
@article{chen2025acereason,
title={AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning},
author={Chen, Yang and Yang, Zhuolin and Liu, Zihan and Lee, Chankyu and Xu, Peng and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
journal={arXiv preprint arXiv:2505.16400},
year={2025}
}
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98