模型简介
模型特点
模型能力
使用案例
🚀 Llama-3.3-Nemotron-Super-49B-v1 GGUF模型
Llama-3.3-Nemotron-Super-49B-v1是基于Meta Llama-3.3-70B-Instruct开发的大语言模型,在推理能力、聊天交互和任务处理等方面表现出色,支持128K token的上下文长度,能在准确性和效率之间实现良好平衡。
🚀 快速开始
推理模式控制
推理模式(开启/关闭)通过系统提示控制,所有指令应包含在用户提示中。示例如下:
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
推理开启模式参数设置
建议在推理开启模式下,将温度设置为0.6
,Top P设置为0.95
。
推理关闭模式参数设置
建议在推理关闭模式下使用贪心解码。
试用链接
可以通过以下链接使用预览API试用该模型:Llama-3_3-Nemotron-Super-49B-v1。
✨ 主要特性
模型优化
- 使用新颖的神经架构搜索(NAS)方法,大幅减少模型的内存占用,可在单个GPU(如H200)上处理高负载工作。
- 多阶段的后训练过程,包括监督微调阶段和多个强化学习阶段,增强了模型的推理和非推理能力。
语言支持
支持英语和多种编码语言,同时也支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等非英语语言。
上下文长度
支持长达131,072个token的上下文长度。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
高级用法
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
# Thinking can be "on" or "off"
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
📚 详细文档
模型概述
Llama-3.3-Nemotron-Super-49B-v1是基于Meta Llama-3.3-70B-Instruct的推理模型,经过多阶段后训练,支持128K token的上下文长度,在准确性和效率之间取得了良好平衡。
许可证/使用条款
- 本模型的使用受NVIDIA开放模型许可证的约束。
- 附加信息:Llama 3.3社区许可协议。
模型开发者
NVIDIA
模型日期
训练时间为2024年11月至2025年2月。
数据新鲜度
预训练数据截止到2023年(根据Meta Llama 3.3 70B)。
用例
适用于设计AI代理系统、聊天机器人、RAG系统和其他AI应用的开发者,也适用于典型的指令跟随任务。
发布日期
2025年3月18日
参考资料
- [2411.19146] Puzzle: Distillation-Based NAS for Inference-Optimized LLMs
- [2502.00203] Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
模型架构
- 架构类型:密集解码器Transformer模型
- 网络架构:Llama 3.3 70B Instruct,通过神经架构搜索(NAS)进行定制。NAS算法产生非标准和非重复的块,包括跳过注意力和可变FFN等。
预期用途
适用于英语和编码语言,也支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等非英语语言。
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维(1D)
- 其他输入相关属性:上下文长度最大为131,072个token
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)
- 其他输出相关属性:上下文长度最大为131,072个token
模型版本
1.0(2025年3月18日)
软件集成
- 运行时引擎:Transformers
- 推荐硬件微架构兼容性:NVIDIA Hopper、NVIDIA Ampere
🔧 技术细节
量化方法
最新的量化方法引入了针对超低比特模型(1 - 2比特)的精度自适应量化,在Llama-3-8B上经过基准测试验证有改进。该方法使用特定层策略,在保持极高内存效率的同时保留准确性。
基准测试上下文
所有测试在Llama-3-8B-Instruct上进行,使用标准困惑度评估管道、2048个token的上下文窗口和相同的提示集。
量化性能比较(Llama-3-8B)
量化方式 | 标准PPL | DynamicGate PPL | Δ PPL | 标准大小 | DG大小 | Δ 大小 | 标准速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
关键改进
- 🔥 IQ1_M的困惑度大幅降低43.9%(从27.46降至15.41)
- 🚀 IQ2_S的困惑度降低36.9%,同时仅增加0.2GB
- ⚡ IQ1_S尽管是1比特量化,但仍保持39.7%的更高准确性
权衡
- 所有变体的大小都有适度增加(0.1 - 0.3GB)
- 推理速度相当(差异小于5%)
模型格式选择
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理,减少内存占用 |
F16 | 高 | 高 | 支持FP16的设备 | 当BF16不可用时的GPU推理 |
Q4_K | 中低 | 低 | CPU或低VRAM设备 | 内存受限环境 |
Q6_K | 中 | 中等 | 内存较多的CPU | 量化模型中准确性较好 |
Q8_0 | 高 | 中等 | 有足够VRAM的CPU或GPU | 量化模型中准确性最高 |
IQ3_XS | 非常低 | 非常低 | 超低内存设备 | 极高内存效率,低准确性 |
Q4_0 | 低 | 低 | ARM或低内存设备 | llama.cpp可针对ARM设备优化 |
训练过程
模型经过多阶段后训练,包括监督微调阶段和多个强化学习阶段,最终模型检查点是在合并最终SFT和在线RPO检查点后获得。
训练数据集
- 知识蒸馏阶段使用了多种训练数据,包括FineWeb、Buzz-V1.2和Dolma。
- 多阶段后训练的数据是SFT和RL数据的集合,支持提高数学、代码、一般推理和指令跟随能力。
- NVIDIA发布了3000万个后训练数据样本,可在Llama-Nemotron-Postraining-Dataset-v1查看。
评估数据集
使用了多种数据集进行评估,数据收集和标注采用混合方式(人工/合成/自动)。
评估结果
评估结果包含“推理开启”和“推理关闭”两种模式,建议在“推理开启”模式下使用温度0.6
,top_p0.95
,在“推理关闭”模式下使用贪心解码。所有评估均在32k序列长度下进行。
评估数据集 | 推理模式 | 得分 |
---|---|---|
Arena-Hard | 推理关闭 | 88.3 |
MATH500 | 推理关闭 | 74.0 |
MATH500 | 推理开启 | 96.6 |
AIME25 | 推理关闭 | 13.33 |
AIME25 | 推理开启 | 58.4 |
GPQA | 推理关闭 | 50 |
GPQA | 推理开启 | 66.67 |
IFEval | 推理关闭 | 89.21 |
BFCL V2 Live | 推理关闭 | 73.7 |
MBPP 0-shot | 推理关闭 | 84.9 |
MBPP 0-shot | 推理开启 | 91.3 |
MT-Bench | 推理关闭 | 9.17 |
📄 许可证
本模型的使用受NVIDIA开放模型许可证的约束。附加信息请参考Llama 3.3社区许可协议。



