模型概述
模型特點
模型能力
使用案例
🚀 Llama-3.3-Nemotron-Super-49B-v1
Llama-3.3-Nemotron-Super-49B-v1是基於Meta Llama-3.3-70B-Instruct的大語言模型,經多階段訓練優化推理和非推理能力,支持128K上下文長度,在準確性和效率間取得良好平衡,適用於多種AI應用場景。
Unsloth Dynamic 2.0 實現了卓越的準確性,性能優於其他領先的量化方法。
🚀 快速開始
推理模式控制
推理模式(開啟/關閉)通過系統提示控制,所有指令應包含在用戶提示中。
參數設置建議
- 推理開啟模式:建議將溫度設置為
0.6
,Top P 設置為0.95
。 - 推理關閉模式:建議使用貪心解碼。
評估提示
對於每個需要特定模板的基準測試,我們提供了用於評估的提示列表。
模型行為
在推理開啟模式下,如果不需要推理,模型將包含 <think></think>
,這是預期行為。
試用鏈接
你可以通過預覽 API 試用此模型,鏈接為:Llama-3_3-Nemotron-Super-49B-v1。
✨ 主要特性
- 高效推理:採用新穎的神經架構搜索(NAS)方法,大幅減少模型的內存佔用,實現了模型準確性和效率的良好平衡。
- 多階段訓練:經過多階段的後訓練過程,增強了模型的推理和非推理能力,包括數學、代碼、推理和工具調用等方面。
- 多語言支持:支持英語和多種編碼語言,同時也支持其他非英語語言,如德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。
- 商業可用:該模型可供商業使用。
📦 安裝指南
使用 Transformers
推薦使用版本為 4.48.3 的 transformers 包。
使用 vLLM
pip install vllm==0.8.3
💻 使用示例
基礎用法
推理開啟示例
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
推理關閉示例
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
# Thinking can be "on" or "off"
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
高級用法
使用 vLLM 服務示例
python3 -m vllm.entrypoints.openai.api_server \
--model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--trust-remote-code \
--seed=1 \
--host="0.0.0.0" \
--port=5000 \
--served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--tensor-parallel-size=8 \
--max-model-len=32768 \
--gpu-memory-utilization 0.95 \
--enforce-eager
📚 詳細文檔
模型概述
Llama-3.3-Nemotron-Super-49B-v1 是一個大語言模型(LLM),它是 Meta Llama-3.3-70B-Instruct 的派生模型。該模型是一個推理模型,經過後訓練以適應推理、人類聊天偏好和各種任務,如 RAG 和工具調用。模型支持 128K 令牌的上下文長度。
模型架構
- 架構類型:密集解碼器僅 Transformer 模型
- 網絡架構:Llama 3.3 70B Instruct,通過神經架構搜索(NAS)進行定製
輸入輸出
- 輸入:文本,字符串格式,一維參數,上下文長度可達 131,072 令牌
- 輸出:文本,字符串格式,一維參數,上下文長度可達 131,072 令牌
模型版本
1.0 (3/18/2025)
軟件集成
- 運行時引擎:Transformers
- 推薦硬件微架構兼容性:NVIDIA Hopper、NVIDIA Ampere
推理信息
- 引擎:Transformers
- 測試硬件:
- FP8:1x NVIDIA H100-80GB GPU(即將推出!)
- BF16:2x NVIDIA H100-80GB、2x NVIDIA A100-80GB GPUs
- 首選/支持的操作系統:Linux
訓練數據集
- 知識蒸餾階段:使用了多種訓練數據,其中包括 FineWeb、Buzz-V1.2 和 Dolma。
- 多階段後訓練階段:用於改進代碼、數學和推理能力的數據是 SFT 和 RL 數據的彙編,支持改進原始 Llama 指令模型的數學、代碼、一般推理和指令跟隨能力。
- 數據發佈:與該模型發佈同時,NVIDIA 發佈了 30M 個後訓練數據樣本,為公共和許可數據。請參閱 Llama-Nemotron-Postraining-Dataset-v1。
評估數據集
使用了以下數據集對 Llama-3.3-Nemotron-Super-49B-v1 進行評估。
評估結果
評估結果包含“推理開啟”和“推理關閉”兩種模式。建議在“推理開啟”模式下使用溫度=0.6
,top_p=0.95
,在“推理關閉”模式下使用貪心解碼。所有評估均使用 32k 序列長度進行,我們對基準測試運行多達 16 次並取平均分數以提高準確性。
基準測試 | 推理模式 | 分數 | pass@1 |
---|---|---|---|
Arena-Hard | 推理關閉 | 88.3 | - |
MATH500 | 推理關閉 | - | 74.0 |
MATH500 | 推理開啟 | - | 96.6 |
AIME25 | 推理關閉 | - | 13.33 |
AIME25 | 推理開啟 | - | 58.4 |
GPQA | 推理關閉 | - | 50 |
GPQA | 推理開啟 | - | 66.67 |
IFEval | 推理關閉 | 89.21 | - |
BFCL V2 Live | 推理關閉 | 73.7 | - |
MBPP 0-shot | 推理關閉 | - | 84.9 |
MBPP 0-shot | 推理開啟 | - | 91.3 |
MT-Bench | 推理關閉 | 9.17 | - |
倫理考慮
NVIDIA 認為可信 AI 是一項共同責任,並已制定政策和實踐,以支持廣泛的 AI 應用開發。開發者在下載或使用該模型時,應與內部模型團隊合作,確保該模型符合相關行業和用例的要求,並解決不可預見的產品濫用問題。
引用
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron: Efficient Reasoning Models},
author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
year={2025},
eprint={2505.00949},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.00949},
}
🔧 技術細節
神經架構搜索(NAS)
該模型使用神經架構搜索(NAS)對 Meta 的 Llama-3.3-70B-Instruct 進行定製。NAS 算法產生非標準和非重複的塊,包括:
- 跳過注意力:在某些塊中,注意力被完全跳過,或被單個線性層取代。
- 可變 FFN:FFN 層中的擴展/壓縮比在不同塊之間不同。
知識蒸餾
模型進行了基於塊的參考模型知識蒸餾,為每個塊創建多個變體,提供不同的質量與計算複雜度權衡。然後搜索這些塊以創建一個滿足所需吞吐量和內存(針對單個 H100-80GB GPU 進行優化)的模型,同時最小化質量下降。知識蒸餾步驟包括 400 億令牌,由 FineWeb、Buzz-V1.2 和 Dolma 三個數據集混合而成。
📄 許可證
- 適用條款:你使用此模型受 NVIDIA 開放模型許可證 約束。
- 附加信息:Llama 3.3 社區許可協議。基於 Llama 構建。
- 模型開發者:NVIDIA
- 模型日期:2024 年 11 月至 2025 年 2 月期間訓練
- 數據新鮮度:根據 Meta Llama 3.3 70B,預訓練數據截止到 2023 年
- 用例:適用於設計 AI 代理系統、聊天機器人、RAG 系統和其他 AI 應用的開發者,也適用於典型的指令跟隨任務。
- 發佈日期:3/18/2025
參考信息
- [2505.00949] Llama-Nemotron: Efficient Reasoning Models
- [2411.19146] Puzzle: Distillation-Based NAS for Inference-Optimized LLMs
- [2502.00203] Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
訓練數據集信息
屬性 | 詳情 |
---|---|
模型類型 | 大語言模型,基於 Llama 3.3 70B Instruct 派生 |
訓練數據 | 知識蒸餾階段使用 FineWeb、Buzz-V1.2 和 Dolma 等數據;多階段後訓練階段使用 SFT 和 RL 數據;同時發佈了 30M 個後訓練數據樣本 |
數據收集方式 | 混合:自動化、人工、合成 |
數據標註方式 | 混合:自動化、人工、合成 |
評估數據收集方式 | 混合:人工/合成 |
評估數據標註方式 | 混合:人工/合成/自動 |
提示信息
⚠️ 重要提示
所有評估均使用 32k 序列長度進行,建議在“推理開啟”模式下使用溫度=
0.6
,top_p=0.95
,在“推理關閉”模式下使用貪心解碼。在完成基準測試時,請確保按照提供的提示解析正確的輸出格式,以重現下面的基準測試結果。
💡 使用建議
推理開啟模式下,建議將溫度設置為
0.6
,Top P 設置為0.95
;推理關閉模式下,建議使用貪心解碼。同時,在使用模型時,請根據具體需求和場景選擇合適的推理模式。



