模型概述
模型特點
模型能力
使用案例
🚀 Llama-3.3-Nemotron-Super-49B-v1 GGUF模型
Llama-3.3-Nemotron-Super-49B-v1是基於Meta Llama-3.3-70B-Instruct開發的大語言模型,在推理能力、聊天交互和任務處理等方面表現出色,支持128K token的上下文長度,能在準確性和效率之間實現良好平衡。
🚀 快速開始
推理模式控制
推理模式(開啟/關閉)通過系統提示控制,所有指令應包含在用戶提示中。示例如下:
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
推理開啟模式參數設置
建議在推理開啟模式下,將溫度設置為0.6
,Top P設置為0.95
。
推理關閉模式參數設置
建議在推理關閉模式下使用貪心解碼。
試用鏈接
可以通過以下鏈接使用預覽API試用該模型:Llama-3_3-Nemotron-Super-49B-v1。
✨ 主要特性
模型優化
- 使用新穎的神經架構搜索(NAS)方法,大幅減少模型的內存佔用,可在單個GPU(如H200)上處理高負載工作。
- 多階段的後訓練過程,包括監督微調階段和多個強化學習階段,增強了模型的推理和非推理能力。
語言支持
支持英語和多種編碼語言,同時也支持德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等非英語語言。
上下文長度
支持長達131,072個token的上下文長度。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
高級用法
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
# Thinking can be "on" or "off"
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
📚 詳細文檔
模型概述
Llama-3.3-Nemotron-Super-49B-v1是基於Meta Llama-3.3-70B-Instruct的推理模型,經過多階段後訓練,支持128K token的上下文長度,在準確性和效率之間取得了良好平衡。
許可證/使用條款
- 本模型的使用受NVIDIA開放模型許可證的約束。
- 附加信息:Llama 3.3社區許可協議。
模型開發者
NVIDIA
模型日期
訓練時間為2024年11月至2025年2月。
數據新鮮度
預訓練數據截止到2023年(根據Meta Llama 3.3 70B)。
用例
適用於設計AI代理系統、聊天機器人、RAG系統和其他AI應用的開發者,也適用於典型的指令跟隨任務。
發佈日期
2025年3月18日
參考資料
- [2411.19146] Puzzle: Distillation-Based NAS for Inference-Optimized LLMs
- [2502.00203] Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
模型架構
- 架構類型:密集解碼器Transformer模型
- 網絡架構:Llama 3.3 70B Instruct,通過神經架構搜索(NAS)進行定製。NAS算法產生非標準和非重複的塊,包括跳過注意力和可變FFN等。
預期用途
適用於英語和編碼語言,也支持德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等非英語語言。
輸入
- 輸入類型:文本
- 輸入格式:字符串
- 輸入參數:一維(1D)
- 其他輸入相關屬性:上下文長度最大為131,072個token
輸出
- 輸出類型:文本
- 輸出格式:字符串
- 輸出參數:一維(1D)
- 其他輸出相關屬性:上下文長度最大為131,072個token
模型版本
1.0(2025年3月18日)
軟件集成
- 運行時引擎:Transformers
- 推薦硬件微架構兼容性:NVIDIA Hopper、NVIDIA Ampere
🔧 技術細節
量化方法
最新的量化方法引入了針對超低比特模型(1 - 2比特)的精度自適應量化,在Llama-3-8B上經過基準測試驗證有改進。該方法使用特定層策略,在保持極高內存效率的同時保留準確性。
基準測試上下文
所有測試在Llama-3-8B-Instruct上進行,使用標準困惑度評估管道、2048個token的上下文窗口和相同的提示集。
量化性能比較(Llama-3-8B)
量化方式 | 標準PPL | DynamicGate PPL | Δ PPL | 標準大小 | DG大小 | Δ 大小 | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
關鍵改進
- 🔥 IQ1_M的困惑度大幅降低43.9%(從27.46降至15.41)
- 🚀 IQ2_S的困惑度降低36.9%,同時僅增加0.2GB
- ⚡ IQ1_S儘管是1比特量化,但仍保持39.7%的更高準確性
權衡
- 所有變體的大小都有適度增加(0.1 - 0.3GB)
- 推理速度相當(差異小於5%)
模型格式選擇
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理,減少內存佔用 |
F16 | 高 | 高 | 支持FP16的設備 | 當BF16不可用時的GPU推理 |
Q4_K | 中低 | 低 | CPU或低VRAM設備 | 內存受限環境 |
Q6_K | 中 | 中等 | 內存較多的CPU | 量化模型中準確性較好 |
Q8_0 | 高 | 中等 | 有足夠VRAM的CPU或GPU | 量化模型中準確性最高 |
IQ3_XS | 非常低 | 非常低 | 超低內存設備 | 極高內存效率,低準確性 |
Q4_0 | 低 | 低 | ARM或低內存設備 | llama.cpp可針對ARM設備優化 |
訓練過程
模型經過多階段後訓練,包括監督微調階段和多個強化學習階段,最終模型檢查點是在合併最終SFT和在線RPO檢查點後獲得。
訓練數據集
- 知識蒸餾階段使用了多種訓練數據,包括FineWeb、Buzz-V1.2和Dolma。
- 多階段後訓練的數據是SFT和RL數據的集合,支持提高數學、代碼、一般推理和指令跟隨能力。
- NVIDIA發佈了3000萬個後訓練數據樣本,可在Llama-Nemotron-Postraining-Dataset-v1查看。
評估數據集
使用了多種數據集進行評估,數據收集和標註採用混合方式(人工/合成/自動)。
評估結果
評估結果包含“推理開啟”和“推理關閉”兩種模式,建議在“推理開啟”模式下使用溫度0.6
,top_p0.95
,在“推理關閉”模式下使用貪心解碼。所有評估均在32k序列長度下進行。
評估數據集 | 推理模式 | 得分 |
---|---|---|
Arena-Hard | 推理關閉 | 88.3 |
MATH500 | 推理關閉 | 74.0 |
MATH500 | 推理開啟 | 96.6 |
AIME25 | 推理關閉 | 13.33 |
AIME25 | 推理開啟 | 58.4 |
GPQA | 推理關閉 | 50 |
GPQA | 推理開啟 | 66.67 |
IFEval | 推理關閉 | 89.21 |
BFCL V2 Live | 推理關閉 | 73.7 |
MBPP 0-shot | 推理關閉 | 84.9 |
MBPP 0-shot | 推理開啟 | 91.3 |
MT-Bench | 推理關閉 | 9.17 |
📄 許可證
本模型的使用受NVIDIA開放模型許可證的約束。附加信息請參考Llama 3.3社區許可協議。



