Llama-3_3-Nemotron-Super-49B-v1开源大模型 - 推理对话强，支持长文本任务处理

首页

Llama 3 3 Nemotron Super 49B V1

由 nvidia 开发

Llama-3.3-Nemotron-Super-49B-v1是基于Meta Llama-3.3-70B-Instruct的大型语言模型，专注于推理、对话偏好和任务执行，支持128K tokens上下文长度。

大型语言模型

Transformers

英语开源协议:其他 #128K长文本推理 #多模态任务优化 #NAS高效架构

下载量 150.65k

发布时间 : 3/16/2025

模型简介

该模型通过神经架构搜索优化了内存占用，适合在单个GPU上高效运行，适用于AI代理系统、聊天机器人和RAG系统等应用。

模型特点

高效推理优化

通过神经架构搜索减少内存占用，提升吞吐量，适合在单个H100-80GB GPU上运行。

长上下文支持

支持128K tokens的上下文长度，适合处理复杂任务和大规模文档。

多阶段训练

结合监督微调和强化学习（RLOO/RPO），优化数学、代码、推理和对话能力。

模型能力

文本生成

数学推理

代码生成

多轮对话

指令遵循

工具调用

使用案例

企业AI应用

智能客服

构建高精度对话系统，处理复杂用户查询。

在Arena-Hard基准测试中得分88.3（推理关闭模式）。

文档分析

利用长上下文能力处理大型技术文档或法律文本。

教育

数学解题辅助

逐步解答数学问题并给出推理过程。

在MATH500基准测试中pass@1达96.6（推理开启模式）。

🚀 Llama-3.3-Nemotron-Super-49B-v1

Llama-3.3-Nemotron-Super-49B-v1是一个大型语言模型，基于Meta Llama-3.3-70B-Instruct衍生而来。它经过后训练，在推理、人类对话偏好以及RAG和工具调用等任务上表现出色，支持128K的上下文长度。该模型在准确性和效率之间取得了良好的平衡，通过创新的神经架构搜索（NAS）方法，大幅减少了内存占用，可在单GPU上处理高负载任务。

🚀 快速开始

推理模式控制

推理模式（开启/关闭）通过系统提示进行控制，具体设置请参考以下示例。所有指令应包含在用户提示中。

使用建议

“推理开启”模式：建议设置温度为0.6，Top P为0.95。
“推理关闭”模式：建议使用贪心解码。

试用模型

你可以通过以下链接使用预览API来试用此模型：Llama-3_3-Nemotron-Super-49B-v1。

✨ 主要特性

高效推理：通过NAS方法优化模型，在准确性和效率之间取得良好平衡，减少内存占用，支持在单GPU上处理高负载任务。
多阶段训练：经过多阶段后训练，包括监督微调（SFT）和强化学习（RL），提升了推理和非推理能力。
多语言支持：支持英语和多种编码语言，同时也支持部分非英语语言。
长上下文支持：支持长达131,072个标记的上下文长度。

📦 安装指南

使用vLLM

pip install vllm==0.8.3

💻 使用示例

基础用法

推理开启示例

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

推理关闭示例

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

# Thinking can be "on" or "off"
thinking = "off"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

高级用法

使用vLLM服务示例

python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager

📚 详细文档

模型概述

Accuracy Comparison Plot

Llama-3.3-Nemotron-Super-49B-v1是一个基于Meta Llama-3.3-70B-Instruct的大型语言模型。它是一个推理模型，经过后训练，适用于推理、人类对话偏好以及RAG和工具调用等任务。该模型支持128K的上下文长度。

训练过程

模型经过多阶段后训练，包括监督微调（SFT）和强化学习（RL），以提升推理和非推理能力。具体包括：

监督微调：针对数学、代码、推理和工具调用进行监督微调。
强化学习：使用REINFORCE（RLOO）和在线奖励感知偏好优化（RPO）算法进行多阶段强化学习，用于对话和指令跟随。

最终模型检查点是在合并最终SFT和在线RPO检查点后获得的。更多训练细节请参考技术报告和博客。

模型架构

属性	详情
模型类型	基于Meta Llama-3.3-70B-Instruct的派生模型，通过神经架构搜索（NAS）进行定制
网络架构	Llama 3.3 70B Instruct，使用NAS算法生成非标准和非重复的块

NAS算法导致模型包含以下特殊块：

跳过注意力：在某些块中，注意力机制被完全跳过，或被单个线性层替换。
可变FFN：FFN层中的扩展/压缩比在不同块之间不同。

模型通过块级蒸馏参考模型，为每个块创建多个变体，以提供不同的质量与计算复杂度权衡。然后搜索这些块，创建一个满足所需吞吐量和内存要求（针对单个H100-80GB GPU进行优化）的模型，同时最小化质量下降。最后，模型进行知识蒸馏（KD），重点关注英语单轮和多轮对话用例。KD步骤包括400亿个标记，由3个数据集（FineWeb、Buzz-V1.2和Dolma）混合而成。

预期用途

Llama-3.3-Nemotron-Super-49B-v1是一个通用的推理和对话模型，适用于英语和编码语言。同时也支持其他非英语语言，如德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

输入输出

输入/输出	类型	格式	参数	其他属性
输入	文本	字符串	一维（1D）	上下文长度最多131,072个标记
输出	文本	字符串	一维（1D）	上下文长度最多131,072个标记

模型版本

1.0 (3/18/2025)

软件集成

运行时引擎：Transformers
推荐硬件微架构兼容性：
- NVIDIA Hopper
- NVIDIA Ampere

推理

推理引擎	测试硬件	操作系统
Transformers	FP8: 1x NVIDIA H100-80GB GPU (即将推出!) BF16: 2x NVIDIA H100-80GB 2x NVIDIA A100-80GB GPUs	Linux

训练数据集

知识蒸馏阶段

在多阶段后训练之前的知识蒸馏阶段，使用了多种训练数据，其中包括FineWeb、Buzz-V1.2和Dolma。

多阶段后训练阶段

用于提升代码、数学和推理能力的多阶段后训练数据是SFT和RL数据的集合，支持提升原始Llama指令模型的数学、代码、通用推理和指令跟随能力。

与模型发布同时，NVIDIA发布了3000万个后训练数据样本，这些数据是公开且许可使用的。详情请见Llama-Nemotron-Postraining-Dataset-v1。

数据分布

类别	数量
数学	19,840,970
代码	9,612,677
科学	708,920
指令跟随	56,339
对话	39,792
安全	31,426

提示信息来源于公开语料库或合成生成。响应由多种模型合成生成，部分提示包含推理开启和关闭模式的响应，以训练模型区分两种模式。

数据收集和标注

数据收集：混合模式（自动化、人工、合成）
数据标注：混合模式（自动化、人工、合成）

评估数据集

使用以下数据集对Llama-3.3-Nemotron-Super-49B-v1进行评估：

数据收集：混合模式（人工/合成）
数据标注：混合模式（人工/合成/自动）

评估结果

评估结果包含“推理开启”和“推理关闭”两种模式。建议在“推理开启”模式下使用温度=0.6，top_p=0.95；在“推理关闭”模式下使用贪心解码。所有评估均使用32k序列长度进行，基准测试最多运行16次，并对分数进行平均以提高准确性。

⚠️ 重要提示

适用时，将提供提示模板。完成基准测试时，请确保按照提供的提示解析正确的输出格式，以重现以下基准测试结果。

Arena-Hard

推理模式	分数
推理关闭	88.3

MATH500

推理模式	pass@1
推理关闭	74.0
推理开启	96.6

AIME25

推理模式	pass@1
推理关闭	13.33
推理开启	58.4

GPQA

推理模式	pass@1
推理关闭	50
推理开启	66.67

IFEval

推理模式	严格指令遵循率
推理关闭	89.21

BFCL V2 Live

推理模式	分数
推理关闭	73.7

MBPP 0-shot

推理模式	pass@1
推理关闭	84.9
推理开启	91.3

MT-Bench

推理模式	分数
推理关闭	9.17

伦理考虑

NVIDIA认为可信AI是一项共同责任，并制定了相关政策和实践，以支持各种AI应用的开发。开发者在下载或使用该模型时，应与内部模型团队合作，确保模型符合相关行业和用例的要求，并解决潜在的产品滥用问题。

更多关于该模型的伦理考虑详细信息，请参阅模型卡片++的可解释性、偏差、安全与保障和隐私子卡片。

请在此处报告安全漏洞或NVIDIA AI相关问题：https://www.nvidia.com/en-us/support/submit-security-vulnerability/。

引用

@misc{bercovich2025llamanemotronefficientreasoningmodels,
      title={Llama-Nemotron: Efficient Reasoning Models}, 
      author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
      year={2025},
      eprint={2505.00949},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.00949}, 
}