Llama-3_3-Nemotron-Super-49B-v1-GGUF开源大模型 - 免费部署，强推理与任务执行能力

Llama 3 3 Nemotron Super 49B V1 GGUF

由 unsloth 开发

Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型，基于 Meta Llama-3.3-70B-Instruct 改进，增强了推理能力、人类聊天偏好以及任务执行能力，支持 128K tokens 的上下文长度。

大型语言模型

Transformers

英语开源协议:其他 #128K长文本推理 #数学代码增强 #NAS高效架构

下载量 814

发布时间 : 5/22/2025

模型简介

该模型是一个推理和聊天模型，适用于英语和编程语言，支持多种非英语语言。经过多阶段的后训练过程，增强了数学、代码、推理和工具调用能力。

模型特点

高效推理

通过神经架构搜索（NAS）优化，在精度和效率之间实现出色平衡，减少内存占用，适配单块 GPU。

多阶段后训练

经过监督微调和强化学习（RL）阶段，增强数学、代码、推理和指令跟随能力。

长上下文支持

支持 128K tokens 的上下文长度，适合处理复杂任务和大规模数据。

模型能力

文本生成

数学推理

代码生成

工具调用

多语言支持

指令跟随

使用案例

AI 代理系统

聊天机器人

用于构建高效的聊天机器人，支持多轮对话和复杂指令。

在 MT-Bench 上得分为 9.17。

RAG 系统

用于构建检索增强生成（RAG）系统，处理大规模上下文信息。

支持 128K tokens 的上下文长度。

数学与代码

数学问题求解

解决复杂的数学问题，支持逐步推理和最终答案生成。

在 MATH500 上 pass@1 为 96.6（推理开启）。

代码生成

生成高质量的代码，支持 Python 等多种编程语言。

在 MBPP 0-shot 上 pass@1 为 91.3（推理开启）。

🚀 Llama-3.3-Nemotron-Super-49B-v1

Llama-3.3-Nemotron-Super-49B-v1是基于Meta Llama-3.3-70B-Instruct的大语言模型，经多阶段训练优化推理和非推理能力，支持128K上下文长度，在准确性和效率间取得良好平衡，适用于多种AI应用场景。

Unsloth Dynamic 2.0 实现了卓越的准确性，性能优于其他领先的量化方法。

🚀 快速开始

推理模式控制

推理模式（开启/关闭）通过系统提示控制，所有指令应包含在用户提示中。

参数设置建议

推理开启模式：建议将温度设置为 0.6，Top P 设置为 0.95。
推理关闭模式：建议使用贪心解码。

评估提示

对于每个需要特定模板的基准测试，我们提供了用于评估的提示列表。

模型行为

在推理开启模式下，如果不需要推理，模型将包含 <think></think>，这是预期行为。

试用链接

你可以通过预览 API 试用此模型，链接为：Llama-3_3-Nemotron-Super-49B-v1。

✨ 主要特性

高效推理：采用新颖的神经架构搜索（NAS）方法，大幅减少模型的内存占用，实现了模型准确性和效率的良好平衡。
多阶段训练：经过多阶段的后训练过程，增强了模型的推理和非推理能力，包括数学、代码、推理和工具调用等方面。
多语言支持：支持英语和多种编码语言，同时也支持其他非英语语言，如德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
商业可用：该模型可供商业使用。

📦 安装指南

使用 Transformers

推荐使用版本为 4.48.3 的 transformers 包。

使用 vLLM

pip install vllm==0.8.3

💻 使用示例

基础用法

推理开启示例

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

推理关闭示例

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

# Thinking can be "on" or "off"
thinking = "off"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

高级用法

使用 vLLM 服务示例

python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager

📚 详细文档

模型概述

Llama-3.3-Nemotron-Super-49B-v1 是一个大语言模型（LLM），它是 Meta Llama-3.3-70B-Instruct 的派生模型。该模型是一个推理模型，经过后训练以适应推理、人类聊天偏好和各种任务，如 RAG 和工具调用。模型支持 128K 令牌的上下文长度。

模型架构

架构类型：密集解码器仅 Transformer 模型
网络架构：Llama 3.3 70B Instruct，通过神经架构搜索（NAS）进行定制

输入输出

输入：文本，字符串格式，一维参数，上下文长度可达 131,072 令牌
输出：文本，字符串格式，一维参数，上下文长度可达 131,072 令牌

模型版本

1.0 (3/18/2025)

软件集成

运行时引擎：Transformers
推荐硬件微架构兼容性：NVIDIA Hopper、NVIDIA Ampere

推理信息

引擎：Transformers
测试硬件：
- FP8：1x NVIDIA H100-80GB GPU（即将推出！）
- BF16：2x NVIDIA H100-80GB、2x NVIDIA A100-80GB GPUs
首选/支持的操作系统：Linux

训练数据集

知识蒸馏阶段：使用了多种训练数据，其中包括 FineWeb、Buzz-V1.2 和 Dolma。
多阶段后训练阶段：用于改进代码、数学和推理能力的数据是 SFT 和 RL 数据的汇编，支持改进原始 Llama 指令模型的数学、代码、一般推理和指令跟随能力。
数据发布：与该模型发布同时，NVIDIA 发布了 30M 个后训练数据样本，为公共和许可数据。请参阅 Llama-Nemotron-Postraining-Dataset-v1。

评估数据集

使用了以下数据集对 Llama-3.3-Nemotron-Super-49B-v1 进行评估。

评估结果

评估结果包含“推理开启”和“推理关闭”两种模式。建议在“推理开启”模式下使用温度=0.6，top_p=0.95，在“推理关闭”模式下使用贪心解码。所有评估均使用 32k 序列长度进行，我们对基准测试运行多达 16 次并取平均分数以提高准确性。

基准测试	推理模式	分数	pass@1
Arena-Hard	推理关闭	88.3	-
MATH500	推理关闭	-	74.0
MATH500	推理开启	-	96.6
AIME25	推理关闭	-	13.33
AIME25	推理开启	-	58.4
GPQA	推理关闭	-	50
GPQA	推理开启	-	66.67
IFEval	推理关闭	89.21	-
BFCL V2 Live	推理关闭	73.7	-
MBPP 0-shot	推理关闭	-	84.9
MBPP 0-shot	推理开启	-	91.3
MT-Bench	推理关闭	9.17	-

伦理考虑

NVIDIA 认为可信 AI 是一项共同责任，并已制定政策和实践，以支持广泛的 AI 应用开发。开发者在下载或使用该模型时，应与内部模型团队合作，确保该模型符合相关行业和用例的要求，并解决不可预见的产品滥用问题。

引用

@misc{bercovich2025llamanemotronefficientreasoningmodels,
      title={Llama-Nemotron: Efficient Reasoning Models}, 
      author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
      year={2025},
      eprint={2505.00949},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.00949}, 
}

🔧 技术细节

神经架构搜索（NAS）

该模型使用神经架构搜索（NAS）对 Meta 的 Llama-3.3-70B-Instruct 进行定制。NAS 算法产生非标准和非重复的块，包括：

跳过注意力：在某些块中，注意力被完全跳过，或被单个线性层取代。
可变 FFN：FFN 层中的扩展/压缩比在不同块之间不同。

知识蒸馏

模型进行了基于块的参考模型知识蒸馏，为每个块创建多个变体，提供不同的质量与计算复杂度权衡。然后搜索这些块以创建一个满足所需吞吐量和内存（针对单个 H100-80GB GPU 进行优化）的模型，同时最小化质量下降。知识蒸馏步骤包括 400 亿令牌，由 FineWeb、Buzz-V1.2 和 Dolma 三个数据集混合而成。

📄 许可证

适用条款：你使用此模型受 NVIDIA 开放模型许可证约束。
附加信息：Llama 3.3 社区许可协议。基于 Llama 构建。
模型开发者：NVIDIA
模型日期：2024 年 11 月至 2025 年 2 月期间训练
数据新鲜度：根据 Meta Llama 3.3 70B，预训练数据截止到 2023 年
用例：适用于设计 AI 代理系统、聊天机器人、RAG 系统和其他 AI 应用的开发者，也适用于典型的指令跟随任务。
发布日期：3/18/2025

参考信息

训练数据集信息

属性	详情
模型类型	大语言模型，基于 Llama 3.3 70B Instruct 派生
训练数据	知识蒸馏阶段使用 FineWeb、Buzz-V1.2 和 Dolma 等数据；多阶段后训练阶段使用 SFT 和 RL 数据；同时发布了 30M 个后训练数据样本
数据收集方式	混合：自动化、人工、合成
数据标注方式	混合：自动化、人工、合成
评估数据收集方式	混合：人工/合成
评估数据标注方式	混合：人工/合成/自动