Llama-3_3-Nemotron-Super-49B-v1-GGUF開源大模型 - 免費部署，強推理與任務執行能力

Llama 3 3 Nemotron Super 49B V1 GGUF

由unsloth開發

Llama-3.3-Nemotron-Super-49B-v1 是一個大型語言模型，基於 Meta Llama-3.3-70B-Instruct 改進，增強了推理能力、人類聊天偏好以及任務執行能力，支持 128K tokens 的上下文長度。

大型語言模型

Transformers

英語開源協議:其他 #128K長文本推理 #數學代碼增強 #NAS高效架構

下載量 814

發布時間 : 5/22/2025

模型概述

該模型是一個推理和聊天模型，適用於英語和編程語言，支持多種非英語語言。經過多階段的後訓練過程，增強了數學、代碼、推理和工具調用能力。

模型特點

高效推理

通過神經架構搜索（NAS）優化，在精度和效率之間實現出色平衡，減少內存佔用，適配單塊 GPU。

多階段後訓練

經過監督微調和強化學習（RL）階段，增強數學、代碼、推理和指令跟隨能力。

長上下文支持

支持 128K tokens 的上下文長度，適合處理複雜任務和大規模數據。

模型能力

文本生成

數學推理

代碼生成

工具調用

多語言支持

指令跟隨

使用案例

AI 代理系統

聊天機器人

用於構建高效的聊天機器人，支持多輪對話和複雜指令。

在 MT-Bench 上得分為 9.17。

RAG 系統

用於構建檢索增強生成（RAG）系統，處理大規模上下文信息。

支持 128K tokens 的上下文長度。

數學與代碼

數學問題求解

解決複雜的數學問題，支持逐步推理和最終答案生成。

在 MATH500 上 pass@1 為 96.6（推理開啟）。

代碼生成

生成高質量的代碼，支持 Python 等多種編程語言。

在 MBPP 0-shot 上 pass@1 為 91.3（推理開啟）。

🚀 Llama-3.3-Nemotron-Super-49B-v1

Llama-3.3-Nemotron-Super-49B-v1是基於Meta Llama-3.3-70B-Instruct的大語言模型，經多階段訓練優化推理和非推理能力，支持128K上下文長度，在準確性和效率間取得良好平衡，適用於多種AI應用場景。

Unsloth Dynamic 2.0 實現了卓越的準確性，性能優於其他領先的量化方法。

🚀 快速開始

推理模式控制

推理模式（開啟/關閉）通過系統提示控制，所有指令應包含在用戶提示中。

參數設置建議

推理開啟模式：建議將溫度設置為 0.6，Top P 設置為 0.95。
推理關閉模式：建議使用貪心解碼。

評估提示

對於每個需要特定模板的基準測試，我們提供了用於評估的提示列表。

模型行為

在推理開啟模式下，如果不需要推理，模型將包含 <think></think>，這是預期行為。

試用鏈接

你可以通過預覽 API 試用此模型，鏈接為：Llama-3_3-Nemotron-Super-49B-v1。

✨ 主要特性

高效推理：採用新穎的神經架構搜索（NAS）方法，大幅減少模型的內存佔用，實現了模型準確性和效率的良好平衡。
多階段訓練：經過多階段的後訓練過程，增強了模型的推理和非推理能力，包括數學、代碼、推理和工具調用等方面。
多語言支持：支持英語和多種編碼語言，同時也支持其他非英語語言，如德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。
商業可用：該模型可供商業使用。

📦 安裝指南

使用 Transformers

推薦使用版本為 4.48.3 的 transformers 包。

使用 vLLM

pip install vllm==0.8.3

💻 使用示例

基礎用法

推理開啟示例

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

推理關閉示例

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

# Thinking can be "on" or "off"
thinking = "off"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

高級用法

使用 vLLM 服務示例

python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager

📚 詳細文檔

模型概述

Llama-3.3-Nemotron-Super-49B-v1 是一個大語言模型（LLM），它是 Meta Llama-3.3-70B-Instruct 的派生模型。該模型是一個推理模型，經過後訓練以適應推理、人類聊天偏好和各種任務，如 RAG 和工具調用。模型支持 128K 令牌的上下文長度。

模型架構

架構類型：密集解碼器僅 Transformer 模型
網絡架構：Llama 3.3 70B Instruct，通過神經架構搜索（NAS）進行定製

輸入輸出

輸入：文本，字符串格式，一維參數，上下文長度可達 131,072 令牌
輸出：文本，字符串格式，一維參數，上下文長度可達 131,072 令牌

模型版本

1.0 (3/18/2025)

軟件集成

運行時引擎：Transformers
推薦硬件微架構兼容性：NVIDIA Hopper、NVIDIA Ampere

推理信息

引擎：Transformers
測試硬件：
- FP8：1x NVIDIA H100-80GB GPU（即將推出！）
- BF16：2x NVIDIA H100-80GB、2x NVIDIA A100-80GB GPUs
首選/支持的操作系統：Linux

訓練數據集

知識蒸餾階段：使用了多種訓練數據，其中包括 FineWeb、Buzz-V1.2 和 Dolma。
多階段後訓練階段：用於改進代碼、數學和推理能力的數據是 SFT 和 RL 數據的彙編，支持改進原始 Llama 指令模型的數學、代碼、一般推理和指令跟隨能力。
數據發佈：與該模型發佈同時，NVIDIA 發佈了 30M 個後訓練數據樣本，為公共和許可數據。請參閱 Llama-Nemotron-Postraining-Dataset-v1。

評估數據集

使用了以下數據集對 Llama-3.3-Nemotron-Super-49B-v1 進行評估。

評估結果

評估結果包含“推理開啟”和“推理關閉”兩種模式。建議在“推理開啟”模式下使用溫度=0.6，top_p=0.95，在“推理關閉”模式下使用貪心解碼。所有評估均使用 32k 序列長度進行，我們對基準測試運行多達 16 次並取平均分數以提高準確性。

基準測試	推理模式	分數	pass@1
Arena-Hard	推理關閉	88.3	-
MATH500	推理關閉	-	74.0
MATH500	推理開啟	-	96.6
AIME25	推理關閉	-	13.33
AIME25	推理開啟	-	58.4
GPQA	推理關閉	-	50
GPQA	推理開啟	-	66.67
IFEval	推理關閉	89.21	-
BFCL V2 Live	推理關閉	73.7	-
MBPP 0-shot	推理關閉	-	84.9
MBPP 0-shot	推理開啟	-	91.3
MT-Bench	推理關閉	9.17	-

倫理考慮

NVIDIA 認為可信 AI 是一項共同責任，並已制定政策和實踐，以支持廣泛的 AI 應用開發。開發者在下載或使用該模型時，應與內部模型團隊合作，確保該模型符合相關行業和用例的要求，並解決不可預見的產品濫用問題。

引用

@misc{bercovich2025llamanemotronefficientreasoningmodels,
      title={Llama-Nemotron: Efficient Reasoning Models}, 
      author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
      year={2025},
      eprint={2505.00949},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.00949}, 
}

🔧 技術細節

神經架構搜索（NAS）

該模型使用神經架構搜索（NAS）對 Meta 的 Llama-3.3-70B-Instruct 進行定製。NAS 算法產生非標準和非重複的塊，包括：

跳過注意力：在某些塊中，注意力被完全跳過，或被單個線性層取代。
可變 FFN：FFN 層中的擴展/壓縮比在不同塊之間不同。

知識蒸餾

模型進行了基於塊的參考模型知識蒸餾，為每個塊創建多個變體，提供不同的質量與計算複雜度權衡。然後搜索這些塊以創建一個滿足所需吞吐量和內存（針對單個 H100-80GB GPU 進行優化）的模型，同時最小化質量下降。知識蒸餾步驟包括 400 億令牌，由 FineWeb、Buzz-V1.2 和 Dolma 三個數據集混合而成。

📄 許可證

適用條款：你使用此模型受 NVIDIA 開放模型許可證約束。
附加信息：Llama 3.3 社區許可協議。基於 Llama 構建。
模型開發者：NVIDIA
模型日期：2024 年 11 月至 2025 年 2 月期間訓練
數據新鮮度：根據 Meta Llama 3.3 70B，預訓練數據截止到 2023 年
用例：適用於設計 AI 代理系統、聊天機器人、RAG 系統和其他 AI 應用的開發者，也適用於典型的指令跟隨任務。
發佈日期：3/18/2025

參考信息

訓練數據集信息

屬性	詳情
模型類型	大語言模型，基於 Llama 3.3 70B Instruct 派生
訓練數據	知識蒸餾階段使用 FineWeb、Buzz-V1.2 和 Dolma 等數據；多階段後訓練階段使用 SFT 和 RL 數據；同時發佈了 30M 個後訓練數據樣本
數據收集方式	混合：自動化、人工、合成
數據標註方式	混合：自動化、人工、合成
評估數據收集方式	混合：人工/合成
評估數據標註方式	混合：人工/合成/自動