模型简介
模型特点
模型能力
使用案例
🚀 Llama-3.3-Nemotron-Super-49B-v1
Llama-3.3-Nemotron-Super-49B-v1是一个大型语言模型,基于Meta Llama-3.3-70B-Instruct衍生而来。它经过后训练,在推理、人类对话偏好以及RAG和工具调用等任务上表现出色,支持128K的上下文长度。该模型在准确性和效率之间取得了良好的平衡,通过创新的神经架构搜索(NAS)方法,大幅减少了内存占用,可在单GPU上处理高负载任务。
🚀 快速开始
推理模式控制
推理模式(开启/关闭)通过系统提示进行控制,具体设置请参考以下示例。所有指令应包含在用户提示中。
使用建议
- “推理开启”模式:建议设置温度为
0.6
,Top P为0.95
。 - “推理关闭”模式:建议使用贪心解码。
试用模型
你可以通过以下链接使用预览API来试用此模型:Llama-3_3-Nemotron-Super-49B-v1。
✨ 主要特性
- 高效推理:通过NAS方法优化模型,在准确性和效率之间取得良好平衡,减少内存占用,支持在单GPU上处理高负载任务。
- 多阶段训练:经过多阶段后训练,包括监督微调(SFT)和强化学习(RL),提升了推理和非推理能力。
- 多语言支持:支持英语和多种编码语言,同时也支持部分非英语语言。
- 长上下文支持:支持长达131,072个标记的上下文长度。
📦 安装指南
使用vLLM
pip install vllm==0.8.3
💻 使用示例
基础用法
推理开启示例
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
推理关闭示例
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
# Thinking can be "on" or "off"
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
高级用法
使用vLLM服务示例
python3 -m vllm.entrypoints.openai.api_server \
--model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--trust-remote-code \
--seed=1 \
--host="0.0.0.0" \
--port=5000 \
--served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--tensor-parallel-size=8 \
--max-model-len=32768 \
--gpu-memory-utilization 0.95 \
--enforce-eager
📚 详细文档
模型概述
Llama-3.3-Nemotron-Super-49B-v1是一个基于Meta Llama-3.3-70B-Instruct的大型语言模型。它是一个推理模型,经过后训练,适用于推理、人类对话偏好以及RAG和工具调用等任务。该模型支持128K的上下文长度。
训练过程
模型经过多阶段后训练,包括监督微调(SFT)和强化学习(RL),以提升推理和非推理能力。具体包括:
- 监督微调:针对数学、代码、推理和工具调用进行监督微调。
- 强化学习:使用REINFORCE(RLOO)和在线奖励感知偏好优化(RPO)算法进行多阶段强化学习,用于对话和指令跟随。
最终模型检查点是在合并最终SFT和在线RPO检查点后获得的。更多训练细节请参考技术报告和博客。
模型架构
属性 | 详情 |
---|---|
模型类型 | 基于Meta Llama-3.3-70B-Instruct的派生模型,通过神经架构搜索(NAS)进行定制 |
网络架构 | Llama 3.3 70B Instruct,使用NAS算法生成非标准和非重复的块 |
NAS算法导致模型包含以下特殊块:
- 跳过注意力:在某些块中,注意力机制被完全跳过,或被单个线性层替换。
- 可变FFN:FFN层中的扩展/压缩比在不同块之间不同。
模型通过块级蒸馏参考模型,为每个块创建多个变体,以提供不同的质量与计算复杂度权衡。然后搜索这些块,创建一个满足所需吞吐量和内存要求(针对单个H100-80GB GPU进行优化)的模型,同时最小化质量下降。最后,模型进行知识蒸馏(KD),重点关注英语单轮和多轮对话用例。KD步骤包括400亿个标记,由3个数据集(FineWeb、Buzz-V1.2和Dolma)混合而成。
预期用途
Llama-3.3-Nemotron-Super-49B-v1是一个通用的推理和对话模型,适用于英语和编码语言。同时也支持其他非英语语言,如德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
输入输出
输入/输出 | 类型 | 格式 | 参数 | 其他属性 |
---|---|---|---|---|
输入 | 文本 | 字符串 | 一维(1D) | 上下文长度最多131,072个标记 |
输出 | 文本 | 字符串 | 一维(1D) | 上下文长度最多131,072个标记 |
模型版本
1.0 (3/18/2025)
软件集成
- 运行时引擎:Transformers
- 推荐硬件微架构兼容性:
- NVIDIA Hopper
- NVIDIA Ampere
推理
推理引擎 | 测试硬件 | 操作系统 |
---|---|---|
Transformers | FP8: 1x NVIDIA H100-80GB GPU (即将推出!) BF16: 2x NVIDIA H100-80GB 2x NVIDIA A100-80GB GPUs |
Linux |
训练数据集
知识蒸馏阶段
在多阶段后训练之前的知识蒸馏阶段,使用了多种训练数据,其中包括FineWeb、Buzz-V1.2和Dolma。
多阶段后训练阶段
用于提升代码、数学和推理能力的多阶段后训练数据是SFT和RL数据的集合,支持提升原始Llama指令模型的数学、代码、通用推理和指令跟随能力。
与模型发布同时,NVIDIA发布了3000万个后训练数据样本,这些数据是公开且许可使用的。详情请见Llama-Nemotron-Postraining-Dataset-v1。
数据分布
类别 | 数量 |
---|---|
数学 | 19,840,970 |
代码 | 9,612,677 |
科学 | 708,920 |
指令跟随 | 56,339 |
对话 | 39,792 |
安全 | 31,426 |
提示信息来源于公开语料库或合成生成。响应由多种模型合成生成,部分提示包含推理开启和关闭模式的响应,以训练模型区分两种模式。
数据收集和标注
- 数据收集:混合模式(自动化、人工、合成)
- 数据标注:混合模式(自动化、人工、合成)
评估数据集
使用以下数据集对Llama-3.3-Nemotron-Super-49B-v1进行评估:
- 数据收集:混合模式(人工/合成)
- 数据标注:混合模式(人工/合成/自动)
评估结果
评估结果包含“推理开启”和“推理关闭”两种模式。建议在“推理开启”模式下使用温度=0.6
,top_p=0.95
;在“推理关闭”模式下使用贪心解码。所有评估均使用32k序列长度进行,基准测试最多运行16次,并对分数进行平均以提高准确性。
⚠️ 重要提示
适用时,将提供提示模板。完成基准测试时,请确保按照提供的提示解析正确的输出格式,以重现以下基准测试结果。
Arena-Hard
推理模式 | 分数 |
---|---|
推理关闭 | 88.3 |
MATH500
推理模式 | pass@1 |
---|---|
推理关闭 | 74.0 |
推理开启 | 96.6 |
AIME25
推理模式 | pass@1 |
---|---|
推理关闭 | 13.33 |
推理开启 | 58.4 |
GPQA
推理模式 | pass@1 |
---|---|
推理关闭 | 50 |
推理开启 | 66.67 |
IFEval
推理模式 | 严格指令遵循率 |
---|---|
推理关闭 | 89.21 |
BFCL V2 Live
推理模式 | 分数 |
---|---|
推理关闭 | 73.7 |
MBPP 0-shot
推理模式 | pass@1 |
---|---|
推理关闭 | 84.9 |
推理开启 | 91.3 |
MT-Bench
推理模式 | 分数 |
---|---|
推理关闭 | 9.17 |
伦理考虑
NVIDIA认为可信AI是一项共同责任,并制定了相关政策和实践,以支持各种AI应用的开发。开发者在下载或使用该模型时,应与内部模型团队合作,确保模型符合相关行业和用例的要求,并解决潜在的产品滥用问题。
更多关于该模型的伦理考虑详细信息,请参阅模型卡片++的可解释性、偏差、安全与保障和隐私子卡片。
请在此处报告安全漏洞或NVIDIA AI相关问题:https://www.nvidia.com/en-us/support/submit-security-vulnerability/。
引用
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron: Efficient Reasoning Models},
author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
year={2025},
eprint={2505.00949},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.00949},
}
🔧 技术细节
神经架构搜索(NAS)
使用新颖的NAS方法,通过块级蒸馏参考模型,为每个块创建多个变体,以提供不同的质量与计算复杂度权衡。然后搜索这些块,创建一个满足所需吞吐量和内存要求(针对单个H100-80GB GPU进行优化)的模型,同时最小化质量下降。更多信息请参考这篇论文。
多阶段后训练
模型经过多阶段后训练,包括监督微调(SFT)和强化学习(RL),以提升推理和非推理能力。具体训练细节请参考技术报告和博客。
📄 许可证
本模型受NVIDIA Open Model License约束。
附加信息:Llama 3.3 Community License Agreement。基于Llama构建。
模型开发者:NVIDIA
模型训练时间:2024年11月至2025年2月
数据时效性:预训练数据截止到2023年(基于Meta Llama 3.3 70B)



