Acereason Nemotron 14B GGUF
AceReason-Nemotron-14B是一个通过强化学习训练的数学和代码推理模型,在多个数学和代码推理基准测试中表现出色。
下载量 326
发布时间 : 6/14/2025
模型简介
该模型专注于数学和代码推理任务,通过强化学习训练,在数学和编程问题解决方面具有优异性能。
模型特点
强化学习训练
完全通过强化学习(RL)训练的数学和代码推理模型
系统性研究
通过广泛的消融实验系统地研究了RL训练过程
性能提升
在数学和代码推理基准测试中取得了出色的成绩
分阶段训练
先在仅含数学的提示上进行RL训练,然后在仅含代码的提示上进行RL训练
模型能力
数学问题解答
代码生成
逐步推理
复杂问题解决
使用案例
教育
数学竞赛题解答
解决高级数学竞赛题目,如AIME竞赛题
在AIME 2024和2025竞赛题上表现优异
编程
代码问题解决
根据问题描述生成Python代码解决方案
在LiveCodeBench基准测试中表现良好
🚀 QuantFactory/AceReason-Nemotron-14B-GGUF
这是使用llama.cpp创建的nvidia/AceReason-Nemotron-14B的量化版本,可用于文本生成。
🚀 快速开始
本项目是基于llama.cpp对原始模型进行量化处理得到的版本,可用于文本生成任务。下面将为你介绍模型的相关信息、使用方法等内容。
✨ 主要特性
- 强化学习训练:AceReason-Nemotron-14B是一个完全通过强化学习(RL)训练的数学和代码推理模型,从DeepSeek-R1-Distilled-Qwen-14B开始训练,在多个数学和代码推理基准测试中取得了出色的成绩。
- 系统性研究:通过广泛的消融实验系统地研究了RL训练过程,并提出了一种简单而有效的方法:先在仅含数学的提示上进行RL训练,然后在仅含代码的提示上进行RL训练。
- 性能提升:研究发现,仅含数学的RL不仅显著提高了强蒸馏模型在数学基准测试上的性能,还提升了代码推理任务的性能;扩展的仅含代码的RL进一步提高了代码基准测试的性能,同时对数学结果的影响极小。
📦 安装指南
文档未提及具体安装步骤,故跳过。
💻 使用示例
基础用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = 'nvidia/AceReason-Nemotron-14B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
prompt = "Jen enters a lottery by picking $4$ distinct numbers from $S=\\{1,2,3,\\cdots,9,10\\}.$ $4$ numbers are randomly chosen from $S.$ She wins a prize if at least two of her numbers were $2$ of the randomly chosen numbers, and wins the grand prize if all four of her numbers were the randomly chosen numbers. The probability of her winning the grand prize given that she won a prize is $\\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
高级用法
# 以下是针对不同类型问题的使用建议代码
# 1. 数学问题建议:不包含系统提示,将所有指令直接放在用户提示中,并使用特定格式要求答案
# 2. 代码问题建议:根据是否有起始代码,构建不同的提示信息
# 数学问题指令
math_instruction = "Please reason step by step, and put your final answer within \\boxed{}."
# 代码问题指令
question = "" # code question
starter_code = "" # starter code function header
code_instruction_nostartercode = """Write Python code to solve the problem. Please place the solution code in the following format:\n```python\n# Your solution code here\n```"""
code_instruction_hasstartercode = """Please place the solution code in the following format:\n```python\n# Your solution code here\n```"""
if starter_code != "":
question += "\n\n" + "Solve the problem starting with the provided function header.\n\nFunction header:\n" + "```\n" + starter_code + "\n```"
question += "\n\n" + code_instruction_hasstartercode
else:
question += "\n\n" + code_instruction_nostartercode
final_prompt = "<|User|>" + question + "<|Assistant|><think>\n"
# 推理引擎配置
# 我们用于评估的推理引擎是 **vLLM==0.7.3**,使用 top-p=0.95,temperature=0.6,max_tokens=32768
📚 详细文档
最新消息
- 2025年6月11日:我们在AceReason评估中分享了评估工具包,包括:
- 运行推理和评分的脚本
- LiveCodeBench (avg@8):每个月(2023/5 - 2025/5)的模型预测文件和分数
- AIME24/25 (avg@64):模型预测文件和分数
- 2025年6月2日:我们很高兴在AceReason-Math上分享我们的数学强化学习训练数据集。
评估结果
我们在AIME 2024、AIME 2025、LiveCodeBench v5(2024/08/01 - 2025/02/01)和LiveCodeBench v6(2025/02/01 - 2025/05/01)上,将我们的模型与Qwen2.5和Llama3.1模型家族中可比大小的竞争推理模型进行了评估。更多评估结果可在我们的技术报告中找到。
模型 | AIME 2024 (avg@64) |
AIME 2025 (avg@64) |
LCB v5 (avg@8) |
LCB v6 (avg@8) |
---|---|---|---|---|
QwQ-32B | 79.5 | 65.8 | 63.4 | - |
DeepSeek-R1-671B | 79.8 | 70.0 | 65.9 | - |
Llama-Nemotron-Ultra-253B | 80.8 | 72.5 | 66.3 | - |
o3-mini (medium) | 79.6 | 76.7 | 67.4 | - |
Light-R1-14B | 74 | 60.2 | 57.9 | 51.5 |
DeepCoder-14B (32K Inference) | 71 | 56.1 | 57.9 | 50.4 |
OpenMath-Nemotron-14B | 76.3 | 63.0 | - | - |
OpenCodeReasoning-Nemotron-14B | - | - | 59.4 | 54.1 |
Llama-Nemotron-Super-49B-v1 | 67.5 | 60.0 | 45.5 | - |
DeepSeek-R1-Distilled-Qwen-14B | 69.7 | 50.2 | 53.1 | 47.9 |
DeepSeek-R1-Distilled-Qwen-32B | 72.6 | 54.9 | 57.2 | - |
AceReason-Nemotron-7B 🤖 | 69.0 | 53.6 | 51.8 | 44.1 |
AceReason-Nemotron-14B 🤖 | 78.6 | 67.4 | 61.1 | 54.9 |
评估工具包
请查看https://huggingface.co/nvidia/AceReason-Nemotron-14B/blob/main/README_EVALUATION.md 中的评估代码、脚本和缓存的预测文件。
联系方式
- Yang Chen (yachen@nvidia.com)
- Zhuolin Yang (zhuoliny@nvidia.com)
- Zihan Liu (zihanl@nvidia.com)
- Chankyu Lee (chankyul@nvidia.com)
- Wei Ping (wping@nvidia.com)
🔧 技术细节
文档未提供具体技术实现细节,故跳过。
📄 许可证
你对该模型的使用受NVIDIA开放模型许可证的约束。
📚 引用
@article{chen2025acereason,
title={AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning},
author={Chen, Yang and Yang, Zhuolin and Liu, Zihan and Lee, Chankyu and Xu, Peng and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
journal={arXiv preprint arXiv:2505.16400},
year={2025}
}
💡 使用建议
- 不包含系统提示,将所有指令直接放在用户提示中。
- 对于数学问题,建议使用以下指令:请逐步推理,并将最终答案放在\boxed{}内。
- 对于代码问题,根据是否有起始代码,构建不同的提示信息。
- 我们用于评估的推理引擎是 vLLM==0.7.3,使用 top-p=0.95,temperature=0.6,max_tokens=32768。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98