Llama-3_3-Nemotron-Super-49B-v1開源大模型 - 推理對話強，支持長文本任務處理

首頁

Llama 3 3 Nemotron Super 49B V1

由nvidia開發

Llama-3.3-Nemotron-Super-49B-v1是基於Meta Llama-3.3-70B-Instruct的大型語言模型，專注於推理、對話偏好和任務執行，支持128K tokens上下文長度。

大型語言模型

Transformers

英語開源協議:其他 #128K長文本推理 #多模態任務優化 #NAS高效架構

下載量 150.65k

發布時間 : 3/16/2025

模型概述

該模型通過神經架構搜索優化了內存佔用，適合在單個GPU上高效運行，適用於AI代理系統、聊天機器人和RAG系統等應用。

模型特點

高效推理優化

通過神經架構搜索減少內存佔用，提升吞吐量，適合在單個H100-80GB GPU上運行。

長上下文支持

支持128K tokens的上下文長度，適合處理複雜任務和大規模文檔。

多階段訓練

結合監督微調和強化學習（RLOO/RPO），優化數學、代碼、推理和對話能力。

模型能力

文本生成

數學推理

代碼生成

多輪對話

指令遵循

工具調用

使用案例

企業AI應用

智能客服

構建高精度對話系統，處理複雜用戶查詢。

在Arena-Hard基準測試中得分88.3（推理關閉模式）。

文檔分析

利用長上下文能力處理大型技術文檔或法律文本。

教育

數學解題輔助

逐步解答數學問題並給出推理過程。

在MATH500基準測試中pass@1達96.6（推理開啟模式）。

🚀 Llama-3.3-Nemotron-Super-49B-v1

Llama-3.3-Nemotron-Super-49B-v1是一個大型語言模型，基於Meta Llama-3.3-70B-Instruct衍生而來。它經過後訓練，在推理、人類對話偏好以及RAG和工具調用等任務上表現出色，支持128K的上下文長度。該模型在準確性和效率之間取得了良好的平衡，通過創新的神經架構搜索（NAS）方法，大幅減少了內存佔用，可在單GPU上處理高負載任務。

🚀 快速開始

推理模式控制

推理模式（開啟/關閉）通過系統提示進行控制，具體設置請參考以下示例。所有指令應包含在用戶提示中。

使用建議

“推理開啟”模式：建議設置溫度為0.6，Top P為0.95。
“推理關閉”模式：建議使用貪心解碼。

試用模型

你可以通過以下鏈接使用預覽API來試用此模型：Llama-3_3-Nemotron-Super-49B-v1。

✨ 主要特性

高效推理：通過NAS方法優化模型，在準確性和效率之間取得良好平衡，減少內存佔用，支持在單GPU上處理高負載任務。
多階段訓練：經過多階段後訓練，包括監督微調（SFT）和強化學習（RL），提升了推理和非推理能力。
多語言支持：支持英語和多種編碼語言，同時也支持部分非英語語言。
長上下文支持：支持長達131,072個標記的上下文長度。

📦 安裝指南

使用vLLM

pip install vllm==0.8.3

💻 使用示例

基礎用法

推理開啟示例

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

推理關閉示例

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

# Thinking can be "on" or "off"
thinking = "off"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

高級用法

使用vLLM服務示例

python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager

📚 詳細文檔

模型概述

Accuracy Comparison Plot

Llama-3.3-Nemotron-Super-49B-v1是一個基於Meta Llama-3.3-70B-Instruct的大型語言模型。它是一個推理模型，經過後訓練，適用於推理、人類對話偏好以及RAG和工具調用等任務。該模型支持128K的上下文長度。

訓練過程

模型經過多階段後訓練，包括監督微調（SFT）和強化學習（RL），以提升推理和非推理能力。具體包括：

監督微調：針對數學、代碼、推理和工具調用進行監督微調。
強化學習：使用REINFORCE（RLOO）和在線獎勵感知偏好優化（RPO）算法進行多階段強化學習，用於對話和指令跟隨。

最終模型檢查點是在合併最終SFT和在線RPO檢查點後獲得的。更多訓練細節請參考技術報告和博客。

模型架構

屬性	詳情
模型類型	基於Meta Llama-3.3-70B-Instruct的派生模型，通過神經架構搜索（NAS）進行定製
網絡架構	Llama 3.3 70B Instruct，使用NAS算法生成非標準和非重複的塊

NAS算法導致模型包含以下特殊塊：

跳過注意力：在某些塊中，注意力機制被完全跳過，或被單個線性層替換。
可變FFN：FFN層中的擴展/壓縮比在不同塊之間不同。

模型通過塊級蒸餾參考模型，為每個塊創建多個變體，以提供不同的質量與計算複雜度權衡。然後搜索這些塊，創建一個滿足所需吞吐量和內存要求（針對單個H100-80GB GPU進行優化）的模型，同時最小化質量下降。最後，模型進行知識蒸餾（KD），重點關注英語單輪和多輪對話用例。KD步驟包括400億個標記，由3個數據集（FineWeb、Buzz-V1.2和Dolma）混合而成。

預期用途

Llama-3.3-Nemotron-Super-49B-v1是一個通用的推理和對話模型，適用於英語和編碼語言。同時也支持其他非英語語言，如德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。

輸入輸出

輸入/輸出	類型	格式	參數	其他屬性
輸入	文本	字符串	一維（1D）	上下文長度最多131,072個標記
輸出	文本	字符串	一維（1D）	上下文長度最多131,072個標記

模型版本

1.0 (3/18/2025)

軟件集成

運行時引擎：Transformers
推薦硬件微架構兼容性：
- NVIDIA Hopper
- NVIDIA Ampere

推理

推理引擎	測試硬件	操作系統
Transformers	FP8: 1x NVIDIA H100-80GB GPU (即將推出!) BF16: 2x NVIDIA H100-80GB 2x NVIDIA A100-80GB GPUs	Linux

訓練數據集

知識蒸餾階段

在多階段後訓練之前的知識蒸餾階段，使用了多種訓練數據，其中包括FineWeb、Buzz-V1.2和Dolma。

多階段後訓練階段

用於提升代碼、數學和推理能力的多階段後訓練數據是SFT和RL數據的集合，支持提升原始Llama指令模型的數學、代碼、通用推理和指令跟隨能力。

與模型發佈同時，NVIDIA發佈了3000萬個後訓練數據樣本，這些數據是公開且許可使用的。詳情請見Llama-Nemotron-Postraining-Dataset-v1。

數據分佈

類別	數量
數學	19,840,970
代碼	9,612,677
科學	708,920
指令跟隨	56,339
對話	39,792
安全	31,426

提示信息來源於公開語料庫或合成生成。響應由多種模型合成生成，部分提示包含推理開啟和關閉模式的響應，以訓練模型區分兩種模式。

數據收集和標註

數據收集：混合模式（自動化、人工、合成）
數據標註：混合模式（自動化、人工、合成）

評估數據集

使用以下數據集對Llama-3.3-Nemotron-Super-49B-v1進行評估：

數據收集：混合模式（人工/合成）
數據標註：混合模式（人工/合成/自動）

評估結果

評估結果包含“推理開啟”和“推理關閉”兩種模式。建議在“推理開啟”模式下使用溫度=0.6，top_p=0.95；在“推理關閉”模式下使用貪心解碼。所有評估均使用32k序列長度進行，基準測試最多運行16次，並對分數進行平均以提高準確性。

⚠️ 重要提示

適用時，將提供提示模板。完成基準測試時，請確保按照提供的提示解析正確的輸出格式，以重現以下基準測試結果。

Arena-Hard

推理模式	分數
推理關閉	88.3

MATH500

推理模式	pass@1
推理關閉	74.0
推理開啟	96.6

AIME25

推理模式	pass@1
推理關閉	13.33
推理開啟	58.4

GPQA

推理模式	pass@1
推理關閉	50
推理開啟	66.67

IFEval

推理模式	嚴格指令遵循率
推理關閉	89.21

BFCL V2 Live

推理模式	分數
推理關閉	73.7

MBPP 0-shot

推理模式	pass@1
推理關閉	84.9
推理開啟	91.3

MT-Bench

推理模式	分數
推理關閉	9.17

倫理考慮

NVIDIA認為可信AI是一項共同責任，並制定了相關政策和實踐，以支持各種AI應用的開發。開發者在下載或使用該模型時，應與內部模型團隊合作，確保模型符合相關行業和用例的要求，並解決潛在的產品濫用問題。

更多關於該模型的倫理考慮詳細信息，請參閱模型卡片++的可解釋性、偏差、安全與保障和隱私子卡片。

請在此處報告安全漏洞或NVIDIA AI相關問題：https://www.nvidia.com/en-us/support/submit-security-vulnerability/。

引用

@misc{bercovich2025llamanemotronefficientreasoningmodels,
      title={Llama-Nemotron: Efficient Reasoning Models}, 
      author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
      year={2025},
      eprint={2505.00949},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.00949}, 
}