模型简介
模型特点
模型能力
使用案例
🚀 Llama-3.3-Nemotron-Super-49B-v1
Llama-3.3-Nemotron-Super-49B-v1是基于Meta Llama-3.3-70B-Instruct的大语言模型,经多阶段训练优化推理和非推理能力,支持128K上下文长度,在准确性和效率间取得良好平衡,适用于多种AI应用场景。
Unsloth Dynamic 2.0 实现了卓越的准确性,性能优于其他领先的量化方法。
🚀 快速开始
推理模式控制
推理模式(开启/关闭)通过系统提示控制,所有指令应包含在用户提示中。
参数设置建议
- 推理开启模式:建议将温度设置为
0.6
,Top P 设置为0.95
。 - 推理关闭模式:建议使用贪心解码。
评估提示
对于每个需要特定模板的基准测试,我们提供了用于评估的提示列表。
模型行为
在推理开启模式下,如果不需要推理,模型将包含 <think></think>
,这是预期行为。
试用链接
你可以通过预览 API 试用此模型,链接为:Llama-3_3-Nemotron-Super-49B-v1。
✨ 主要特性
- 高效推理:采用新颖的神经架构搜索(NAS)方法,大幅减少模型的内存占用,实现了模型准确性和效率的良好平衡。
- 多阶段训练:经过多阶段的后训练过程,增强了模型的推理和非推理能力,包括数学、代码、推理和工具调用等方面。
- 多语言支持:支持英语和多种编码语言,同时也支持其他非英语语言,如德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
- 商业可用:该模型可供商业使用。
📦 安装指南
使用 Transformers
推荐使用版本为 4.48.3 的 transformers 包。
使用 vLLM
pip install vllm==0.8.3
💻 使用示例
基础用法
推理开启示例
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
推理关闭示例
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
# Thinking can be "on" or "off"
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
高级用法
使用 vLLM 服务示例
python3 -m vllm.entrypoints.openai.api_server \
--model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--trust-remote-code \
--seed=1 \
--host="0.0.0.0" \
--port=5000 \
--served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--tensor-parallel-size=8 \
--max-model-len=32768 \
--gpu-memory-utilization 0.95 \
--enforce-eager
📚 详细文档
模型概述
Llama-3.3-Nemotron-Super-49B-v1 是一个大语言模型(LLM),它是 Meta Llama-3.3-70B-Instruct 的派生模型。该模型是一个推理模型,经过后训练以适应推理、人类聊天偏好和各种任务,如 RAG 和工具调用。模型支持 128K 令牌的上下文长度。
模型架构
- 架构类型:密集解码器仅 Transformer 模型
- 网络架构:Llama 3.3 70B Instruct,通过神经架构搜索(NAS)进行定制
输入输出
- 输入:文本,字符串格式,一维参数,上下文长度可达 131,072 令牌
- 输出:文本,字符串格式,一维参数,上下文长度可达 131,072 令牌
模型版本
1.0 (3/18/2025)
软件集成
- 运行时引擎:Transformers
- 推荐硬件微架构兼容性:NVIDIA Hopper、NVIDIA Ampere
推理信息
- 引擎:Transformers
- 测试硬件:
- FP8:1x NVIDIA H100-80GB GPU(即将推出!)
- BF16:2x NVIDIA H100-80GB、2x NVIDIA A100-80GB GPUs
- 首选/支持的操作系统:Linux
训练数据集
- 知识蒸馏阶段:使用了多种训练数据,其中包括 FineWeb、Buzz-V1.2 和 Dolma。
- 多阶段后训练阶段:用于改进代码、数学和推理能力的数据是 SFT 和 RL 数据的汇编,支持改进原始 Llama 指令模型的数学、代码、一般推理和指令跟随能力。
- 数据发布:与该模型发布同时,NVIDIA 发布了 30M 个后训练数据样本,为公共和许可数据。请参阅 Llama-Nemotron-Postraining-Dataset-v1。
评估数据集
使用了以下数据集对 Llama-3.3-Nemotron-Super-49B-v1 进行评估。
评估结果
评估结果包含“推理开启”和“推理关闭”两种模式。建议在“推理开启”模式下使用温度=0.6
,top_p=0.95
,在“推理关闭”模式下使用贪心解码。所有评估均使用 32k 序列长度进行,我们对基准测试运行多达 16 次并取平均分数以提高准确性。
基准测试 | 推理模式 | 分数 | pass@1 |
---|---|---|---|
Arena-Hard | 推理关闭 | 88.3 | - |
MATH500 | 推理关闭 | - | 74.0 |
MATH500 | 推理开启 | - | 96.6 |
AIME25 | 推理关闭 | - | 13.33 |
AIME25 | 推理开启 | - | 58.4 |
GPQA | 推理关闭 | - | 50 |
GPQA | 推理开启 | - | 66.67 |
IFEval | 推理关闭 | 89.21 | - |
BFCL V2 Live | 推理关闭 | 73.7 | - |
MBPP 0-shot | 推理关闭 | - | 84.9 |
MBPP 0-shot | 推理开启 | - | 91.3 |
MT-Bench | 推理关闭 | 9.17 | - |
伦理考虑
NVIDIA 认为可信 AI 是一项共同责任,并已制定政策和实践,以支持广泛的 AI 应用开发。开发者在下载或使用该模型时,应与内部模型团队合作,确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。
引用
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron: Efficient Reasoning Models},
author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
year={2025},
eprint={2505.00949},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.00949},
}
🔧 技术细节
神经架构搜索(NAS)
该模型使用神经架构搜索(NAS)对 Meta 的 Llama-3.3-70B-Instruct 进行定制。NAS 算法产生非标准和非重复的块,包括:
- 跳过注意力:在某些块中,注意力被完全跳过,或被单个线性层取代。
- 可变 FFN:FFN 层中的扩展/压缩比在不同块之间不同。
知识蒸馏
模型进行了基于块的参考模型知识蒸馏,为每个块创建多个变体,提供不同的质量与计算复杂度权衡。然后搜索这些块以创建一个满足所需吞吐量和内存(针对单个 H100-80GB GPU 进行优化)的模型,同时最小化质量下降。知识蒸馏步骤包括 400 亿令牌,由 FineWeb、Buzz-V1.2 和 Dolma 三个数据集混合而成。
📄 许可证
- 适用条款:你使用此模型受 NVIDIA 开放模型许可证 约束。
- 附加信息:Llama 3.3 社区许可协议。基于 Llama 构建。
- 模型开发者:NVIDIA
- 模型日期:2024 年 11 月至 2025 年 2 月期间训练
- 数据新鲜度:根据 Meta Llama 3.3 70B,预训练数据截止到 2023 年
- 用例:适用于设计 AI 代理系统、聊天机器人、RAG 系统和其他 AI 应用的开发者,也适用于典型的指令跟随任务。
- 发布日期:3/18/2025
参考信息
- [2505.00949] Llama-Nemotron: Efficient Reasoning Models
- [2411.19146] Puzzle: Distillation-Based NAS for Inference-Optimized LLMs
- [2502.00203] Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
训练数据集信息
属性 | 详情 |
---|---|
模型类型 | 大语言模型,基于 Llama 3.3 70B Instruct 派生 |
训练数据 | 知识蒸馏阶段使用 FineWeb、Buzz-V1.2 和 Dolma 等数据;多阶段后训练阶段使用 SFT 和 RL 数据;同时发布了 30M 个后训练数据样本 |
数据收集方式 | 混合:自动化、人工、合成 |
数据标注方式 | 混合:自动化、人工、合成 |
评估数据收集方式 | 混合:人工/合成 |
评估数据标注方式 | 混合:人工/合成/自动 |
提示信息
⚠️ 重要提示
所有评估均使用 32k 序列长度进行,建议在“推理开启”模式下使用温度=
0.6
,top_p=0.95
,在“推理关闭”模式下使用贪心解码。在完成基准测试时,请确保按照提供的提示解析正确的输出格式,以重现下面的基准测试结果。
💡 使用建议
推理开启模式下,建议将温度设置为
0.6
,Top P 设置为0.95
;推理关闭模式下,建议使用贪心解码。同时,在使用模型时,请根据具体需求和场景选择合适的推理模式。



