模型概述
模型特點
模型能力
使用案例
🚀 Llama-3.3-Nemotron-Super-49B-v1-FP8
Llama-3.3-Nemotron-Super-49B-v1-FP8是基於Meta Llama-3.3-70B-Instruct衍生的大語言模型,經過多階段後訓練,在推理和非推理能力上表現出色,支持128K上下文長度,在準確性和效率間取得了良好平衡。
🚀 快速開始
推理模式控制
推理模式(開啟/關閉)通過系統提示控制,系統提示必須按以下示例設置,所有指令應包含在用戶提示中。
參數設置建議
- 推理開啟模式:建議將溫度設置為
0.6
,Top P 設置為0.95
。 - 推理關閉模式:建議使用貪婪解碼。
試用鏈接
你可以通過以下鏈接使用預覽 API 試用該模型:Llama-3_3-Nemotron-Super-49B-v1。
使用 vLLM 服務示例
pip install vllm==0.8.3
python3 -m vllm.entrypoints.openai.api_server \
--model "nvidia/Llama-3_3-Nemotron-Super-49B-v1-FP8" \
--trust-remote-code \
--seed=1 \
--host="0.0.0.0" \
--port=5000 \
--served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1-FP8" \
--tensor-parallel-size=8 \
--max-model-len=32768 \
--gpu-memory-utilization 0.95 \
--enforce-eager \
--quantization=modelopt
✨ 主要特性
模型優勢
- 準確性與效率平衡:通過新穎的神經架構搜索(NAS)方法,大幅減少模型內存佔用,可在單個 GPU(H200)上處理高負載工作,同時能在準確性和效率之間進行權衡選擇。
- 多階段後訓練:經過多階段後訓練,增強了推理和非推理能力,包括監督微調階段和多個強化學習階段。
支持語言
支持英語和編碼語言,同時也支持其他非英語語言,如德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。
上下文長度
支持長達 128K 標記的上下文長度。
📦 安裝指南
運行引擎
使用 Transformers 作為運行引擎。
推薦操作系統
建議使用 Linux 操作系統。
硬件兼容性
推薦使用 NVIDIA Hopper 和 NVIDIA Ampere 硬件微架構。
💻 使用示例
基礎用法
在推理模式控制方面,需按如下方式設置系統提示:
# 系統提示設置示例
{系統提示內容}
所有指令應包含在用戶提示中:
# 用戶提示示例
{用戶提示內容}
高級用法
在推理開啟模式下,設置溫度為 0.6
,Top P 為 0.95
:
# 推理開啟模式參數設置示例
parameters = {
"temperature": 0.6,
"top_p": 0.95
}
在推理關閉模式下,使用貪婪解碼:
# 推理關閉模式貪婪解碼示例
parameters = {
"decoding_method": "greedy"
}
📚 詳細文檔
模型概述
Llama-3.3-Nemotron-Super-49B-v1-FP8 是基於 Meta Llama-3.3-70B-Instruct 的大語言模型,經過後訓練用於推理、滿足人類聊天偏好和處理特定任務,如 RAG 和工具調用。該模型支持 128K 標記的上下文長度。
模型架構
- 架構類型:密集解碼器 Transformer 模型。
- 網絡架構:基於 Meta 的 Llama 3.3 70B Instruct,使用神經架構搜索(NAS)算法,產生非標準和非重複的塊。
- 跳過注意力:在某些塊中,完全跳過注意力或用單個線性層替換。
- 可變 FFN:FFN 層中的擴展/壓縮比在不同塊之間不同。
訓練過程
模型經過塊級蒸餾和知識蒸餾(KD)過程,KD 步驟使用了 400 億標記,包含 FineWeb、Buzz-V1.2 和 Dolma 三個數據集的混合。
預期用途
適用於英語和編碼語言的通用推理和聊天場景。
輸入輸出
- 輸入:文本,字符串格式,一維參數,上下文長度可達 131,072 標記。
- 輸出:文本,字符串格式,一維參數,上下文長度可達 131,072 標記。
模型版本
1.0(2025 年 3 月 18 日)
軟件集成
- 運行引擎:Transformers
- 首選操作系統:Linux
- 推薦硬件兼容性:NVIDIA Hopper、NVIDIA Ampere
評估數據集
使用混合方式(人工/合成)收集和標記評估數據集。
評估結果
包含推理開啟和關閉兩種模式的評估結果,所有評估均在 32k 序列長度下進行,運行基準測試最多 16 次並取平均分數以提高準確性。
倫理考慮
NVIDIA 認為可信 AI 是共同責任,開發者應確保模型符合相關行業和用例要求,避免產品濫用。詳細的倫理考慮信息可查看模型卡的相關子卡。
引用信息
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron: Efficient Reasoning Models},
author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
year={2025},
eprint={2505.00949},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.00949},
}
🔧 技術細節
神經架構搜索(NAS)
通過 NAS 算法選擇滿足所需吞吐量和內存要求的模型,同時最小化質量下降。
知識蒸餾(KD)
專注於英語單輪和多輪聊天用例,使用 400 億標記的混合數據集進行知識蒸餾。
訓練數據集
- 知識蒸餾階段:使用 FineWeb、Buzz-V1.2 和 Dolma 三個數據集。
- 多階段後訓練:使用 SFT 和 RL 數據,提高數學、代碼、推理和指令跟隨能力。
評估數據集
使用混合方式(人工/合成)收集和標記評估數據集。
📄 許可證
本模型的使用受 NVIDIA 開放模型許可證 約束。更多信息請參考 Llama 3.3 社區許可協議。
模型開發者
NVIDIA
模型訓練時間
2024 年 11 月至 2025 年 2 月
數據新鮮度
預訓練數據截止到 2023 年(根據 Meta Llama 3.3 70B)
用例
適用於設計 AI 代理系統、聊天機器人、RAG 系統和其他 AI 應用程序的開發者,也適用於典型的指令跟隨任務。
發佈日期
2025 年 3 月 18 日
參考資料
- [2505.00949] Llama-Nemotron: Efficient Reasoning Models
- [2502.00203] Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
- [2411.19146] Puzzle: Distillation-Based NAS for Inference-Optimized LLMs
模型家族
可在以下鏈接找到 Llama Nemotron 系列的其他模型:
評估結果表格
評估數據集 | 推理模式 | pass@1 |
---|---|---|
Arena Hard | 推理關閉 | 88.6 |
BFCL v2 | 推理關閉 | 72.10 |
BFCL v2 | 推理開啟 | 71.70 |
MATH500 | 推理開啟 | 95.6 |
AIME25 | 推理開啟 | 53.96 |
GPQA | 推理開啟 | 64.77 |
用戶提示模板
MATH500 和 AIME25
"Below is a math question. I want you to reason through the steps and then give a final answer. Your final answer should be in \boxed{}.\nQuestion: {question}"
GPQA
"What is the correct answer to this question: {question}\nChoices:\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\nLet's think step by step, and put the final answer (should be a single letter A, B, C, or D) into a \boxed{}"
LiveCodeBench(無起始代碼)
"You will be given a question (problem specification) and will generate a correct Python program that matches the specification and passes all tests.
Question: {prompt}
Read the inputs from stdin solve the problem and write the answer to stdout (do not directly test on the sample inputs). Enclose your code within delimiters as follows. Ensure that when the python program runs, it reads the inputs, runs the algorithm and writes output to STDOUT.
```python
# YOUR CODE HERE
#### LiveCodeBench(有起始代碼)
```plaintext
You will be given a question (problem specification) and will generate a correct Python program that matches the specification and passes all tests.
Question: {prompt}
You will use the following starter code to write the solution to the problem and enclose your code within delimiters.
```python
{starter_code}
### 倫理考慮
請參考模型卡的 [可解釋性](./EXPLAINABILITY.md)、[偏差](./BIAS.md)、[安全與保障](./SAFETY_and_SECURITY.md) 和 [隱私](./PRIVACY.md) 子卡獲取更多詳細信息。
### 安全報告
請 [在此](https://www.nvidia.com/en-us/support/submit-security-vulnerability/) 報告安全漏洞或 NVIDIA AI 相關問題。



