Llama-3_3-Nemotron-Super-49B-v1-GGUF開源大模型

首頁

Llama 3 3 Nemotron Super 49B V1 GGUF

由Mungert開發

採用IQ-DynamicGate超低位量化技術的49B參數大語言模型，支持1-2位精度自適應量化，優化內存效率與推理速度

大型語言模型英語開源協議:其他 #超低位量化 #精度自適應 #內存高效

下載量 434

發布時間 : 3/29/2025

模型概述

基於Llama-3架構的超大規模語言模型，通過創新的動態精度分配技術實現超低位量化，適用於內存受限環境下的高效文本生成

模型特點

IQ-DynamicGate超低位量化

採用分層動態精度分配策略，關鍵組件保護技術減少38%誤差傳播

精度自適應優化

前25%和後25%層使用IQ4_XS，中間層使用IQ2_XXS/IQ3_S，實現最優精度平衡

極致內存效率

1-2位量化版本內存佔用僅2.1-2.9GB，適合邊緣設備部署

模型能力

英語文本生成

長上下文處理(2048令牌)

超低位量化推理

使用案例

資源受限環境部署

邊緣設備文本生成

在低內存GPU/CPU設備上運行生成任務

IQ1_S量化版僅需2.1GB內存

量化技術研究

超低位量化效果驗證

測試1-2位量化對語言模型性能的影響

IQ1_M困惑度降低43.9%

🚀 Llama-3.3-Nemotron-Super-49B-v1 GGUF模型

Llama-3.3-Nemotron-Super-49B-v1是基於Meta Llama-3.3-70B-Instruct開發的大語言模型，在推理能力、聊天交互和任務處理等方面表現出色，支持128K token的上下文長度，能在準確性和效率之間實現良好平衡。

🚀 快速開始

推理模式控制

推理模式（開啟/關閉）通過系統提示控制，所有指令應包含在用戶提示中。示例如下：

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

推理開啟模式參數設置

建議在推理開啟模式下，將溫度設置為0.6，Top P設置為0.95。

推理關閉模式參數設置

建議在推理關閉模式下使用貪心解碼。

試用鏈接

可以通過以下鏈接使用預覽API試用該模型：Llama-3_3-Nemotron-Super-49B-v1。

✨ 主要特性

模型優化

使用新穎的神經架構搜索（NAS）方法，大幅減少模型的內存佔用，可在單個GPU（如H200）上處理高負載工作。
多階段的後訓練過程，包括監督微調階段和多個強化學習階段，增強了模型的推理和非推理能力。

語言支持

支持英語和多種編碼語言，同時也支持德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等非英語語言。

上下文長度

支持長達131,072個token的上下文長度。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

高級用法

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

# Thinking can be "on" or "off"
thinking = "off"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

📚 詳細文檔

模型概述

Llama-3.3-Nemotron-Super-49B-v1是基於Meta Llama-3.3-70B-Instruct的推理模型，經過多階段後訓練，支持128K token的上下文長度，在準確性和效率之間取得了良好平衡。

許可證/使用條款

本模型的使用受NVIDIA開放模型許可證的約束。
附加信息：Llama 3.3社區許可協議。

模型開發者

NVIDIA

模型日期

訓練時間為2024年11月至2025年2月。

數據新鮮度

預訓練數據截止到2023年（根據Meta Llama 3.3 70B）。

用例

適用於設計AI代理系統、聊天機器人、RAG系統和其他AI應用的開發者，也適用於典型的指令跟隨任務。

發佈日期

2025年3月18日

參考資料

模型架構

架構類型：密集解碼器Transformer模型
網絡架構：Llama 3.3 70B Instruct，通過神經架構搜索（NAS）進行定製。NAS算法產生非標準和非重複的塊，包括跳過注意力和可變FFN等。

預期用途

適用於英語和編碼語言，也支持德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等非英語語言。

輸入

輸入類型：文本
輸入格式：字符串
輸入參數：一維（1D）
其他輸入相關屬性：上下文長度最大為131,072個token

輸出

輸出類型：文本
輸出格式：字符串
輸出參數：一維（1D）
其他輸出相關屬性：上下文長度最大為131,072個token

模型版本

1.0（2025年3月18日）

軟件集成

運行時引擎：Transformers
推薦硬件微架構兼容性：NVIDIA Hopper、NVIDIA Ampere

🔧 技術細節

量化方法

最新的量化方法引入了針對超低比特模型（1 - 2比特）的精度自適應量化，在Llama-3-8B上經過基準測試驗證有改進。該方法使用特定層策略，在保持極高內存效率的同時保留準確性。

基準測試上下文

所有測試在Llama-3-8B-Instruct上進行，使用標準困惑度評估管道、2048個token的上下文窗口和相同的提示集。

量化性能比較（Llama-3-8B）

量化方式	標準PPL	DynamicGate PPL	Δ PPL	標準大小	DG大小	Δ 大小	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

關鍵改進

🔥 IQ1_M的困惑度大幅降低43.9%（從27.46降至15.41）
🚀 IQ2_S的困惑度降低36.9%，同時僅增加0.2GB
⚡ IQ1_S儘管是1比特量化，但仍保持39.7%的更高準確性

權衡

所有變體的大小都有適度增加（0.1 - 0.3GB）
推理速度相當（差異小於5%）

模型格式選擇

模型格式	精度	內存使用	設備要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	高速推理，減少內存佔用
F16	高	高	支持FP16的設備	當BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低VRAM設備	內存受限環境
Q6_K	中	中等	內存較多的CPU	量化模型中準確性較好
Q8_0	高	中等	有足夠VRAM的CPU或GPU	量化模型中準確性最高
IQ3_XS	非常低	非常低	超低內存設備	極高內存效率，低準確性
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備優化

訓練過程

模型經過多階段後訓練，包括監督微調階段和多個強化學習階段，最終模型檢查點是在合併最終SFT和在線RPO檢查點後獲得。

訓練數據集

知識蒸餾階段使用了多種訓練數據，包括FineWeb、Buzz-V1.2和Dolma。
多階段後訓練的數據是SFT和RL數據的集合，支持提高數學、代碼、一般推理和指令跟隨能力。
NVIDIA發佈了3000萬個後訓練數據樣本，可在Llama-Nemotron-Postraining-Dataset-v1查看。

評估數據集

使用了多種數據集進行評估，數據收集和標註採用混合方式（人工/合成/自動）。

評估結果

評估結果包含“推理開啟”和“推理關閉”兩種模式，建議在“推理開啟”模式下使用溫度0.6，top_p0.95，在“推理關閉”模式下使用貪心解碼。所有評估均在32k序列長度下進行。

評估數據集	推理模式	得分
Arena-Hard	推理關閉	88.3
MATH500	推理關閉	74.0
MATH500	推理開啟	96.6
AIME25	推理關閉	13.33
AIME25	推理開啟	58.4
GPQA	推理關閉	50
GPQA	推理開啟	66.67
IFEval	推理關閉	89.21
BFCL V2 Live	推理關閉	73.7
MBPP 0-shot	推理關閉	84.9
MBPP 0-shot	推理開啟	91.3
MT-Bench	推理關閉	9.17