🚀 Llama-3.1-Nemotron-Ultra-253B-CPT-v1
Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一個大型語言模型,在準確性和效率之間取得了良好平衡,支持128K上下文長度,適用於商業應用。
🚀 快速開始
(即將推出) 你可以使用以下鏈接,在預覽API中嘗試基於此CPT模型構建的推理模型:Llama-3_1-Nemotron-Ultra-253B-v1。
以下是使用 Hugging Face Transformers 庫的代碼片段:
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
print(pipeline("Hey how are you?"))
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))
✨ 主要特性
- 高效與準確的平衡:Llama-3.1-Nemotron-Ultra-253B-CPT-v1在模型準確性和效率之間實現了出色的平衡。通過新穎的神經架構搜索(NAS)方法,大幅減少了模型的內存佔用,能夠處理更大的工作負載,同時降低了在數據中心環境中運行模型所需的GPU數量。此外,還採用了一種新穎的垂直壓縮模型的方法,顯著改善了延遲。
- 長上下文支持:該模型支持128K的上下文長度,能夠處理更長的文本輸入和輸出。
- 商業可用:此模型可用於商業用途。
📚 詳細文檔
模型概述

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一個大型語言模型(LLM),它是 Meta Llama-3.1-405B-Instruct(即父模型)的衍生模型。該模型支持128K的上下文長度,並且可以在單個8xH100節點上進行推理。雖然該模型源自Llama-3.1-405B-Instruct,但它經過了大量的持續預訓練(CPT)。這個CPT變體可以被視為Llama-3.1-405B-Instruct的“重新基礎化”衍生模型。
Llama-3.1-Nemotron-Ultra-253B-v1是一個在模型準確性和效率之間提供了良好權衡的模型。效率(吞吐量)直接轉化為成本節約。通過使用新穎的神經架構搜索(NAS)方法,我們大大減少了模型的內存佔用,從而能夠處理更大的工作負載,同時減少了在數據中心環境中運行模型所需的GPU數量。這種NAS方法能夠在準確性和效率之間選擇一個理想的平衡點。此外,通過使用一種新穎的垂直壓縮模型的方法(詳見 此處),它還顯著改善了延遲。
這個模型是創建Llama-3.1-Nemotron-Ultra-253B-v1的基礎模型,它是Llama Nemotron系列的一部分。你可以在以下鏈接找到該系列的其他模型:
許可證/使用條款
適用條款:你對該模型的使用受 NVIDIA開放模型許可證 約束。附加信息:Llama 3.1社區許可協議。基於Llama構建。
模型開發者:NVIDIA
模型日期:於2024年11月至2025年4月期間訓練
數據新鮮度:根據Llama-3.1-405B-Instruct,預訓練數據的截止日期為2023年
使用場景
該模型可以作為基礎模型,通過微調應用於任何所需的領域或應用程序。
發佈日期
2025年4月8日
參考文獻
模型架構
架構類型:密集解碼器Transformer模型
網絡架構:Llama-3.1-405B-Instruct,通過神經架構搜索(NAS)進行定製
該模型基於Llama-3.1-405B-Instruct開發,使用了神經架構搜索(NAS)。NAS算法產生了非標準和非重複的塊,包括以下內容:
- 跳過注意力:在某些塊中,注意力機制被完全跳過,或者被單個線性層所取代。
- 可變FFN:FFN層中的擴展/壓縮比在不同塊之間有所不同。
- FFN融合:當連續幾個注意力層被跳過時,可能會產生多個FFN序列,這些FFN序列會被融合成更少但更寬的FFN層。
對於父模型的每個塊,我們創建了多個變體,提供了不同的質量與計算複雜度的權衡方案,詳情可參考 此處。然後,我們在這些塊中進行搜索,以創建一個滿足所需吞吐量和內存約束的模型,同時儘量減少質量下降。為了恢復性能,該模型最初進行了650億個標記的知識蒸餾(KD),隨後進行了880億個標記的持續預訓練(CPT)階段。雖然初始模型源自Llama 3.1-405B-Instruct的指令版本,但經過大量的CPT後,可以將其視為“重新基礎化”的模型。不過,重新基礎化的CPT最終模型仍應保留一些指令跟隨能力。
預期用途
Llama-3.1-Nemotron-Ultra-253B-CPT-v1主要用於英語和編碼語言相關的任務。
輸入
- 輸入類型:文本
- 輸入格式:字符串
- 輸入參數:一維(1D)
- 其他輸入相關屬性:上下文長度最大為131,072個標記
輸出
- 輸出類型:文本
- 輸出格式:字符串
- 輸出參數:一維(1D)
- 其他輸出相關屬性:上下文長度最大為131,072個標記
軟件集成
- 運行時引擎:Transformers
- 推薦的硬件微架構兼容性:
- NVIDIA Hopper
- NVIDIA Ampere
- 首選操作系統:Linux
模型版本
1.0(2025年4月8日)
推理
引擎:
測試硬件:
- BF16:
- 8x NVIDIA H100-80GB
- 4x NVIDIA B100
- FP 8
訓練數據集
在預訓練管道之前的知識蒸餾階段,使用了多種訓練數據,其中包括:FineWeb、Buzz-V1.2和Dolma。
訓練數據集的數據收集
訓練數據集的數據標註
評估數據集
我們使用以下部分列出的數據集對Llama-3.1-Nemotron-Ultra-253B-CPT-v1進行評估。
評估數據集的數據收集
評估數據集的數據標註
評估結果
基準測試 |
指標 |
得分 |
GSM-8K |
嚴格匹配 |
84.99 |
MMLU |
宏平均 |
88.09 |
MATH500 |
微平均 |
80.4 |
HumanEval |
pass@1 |
88.41 |
RULER |
128K |
83.21 |
倫理考量
NVIDIA認為可信AI是一項共同的責任,我們已經制定了相關政策和實踐,以支持廣泛的AI應用開發。當開發者按照我們的服務條款下載或使用該模型時,應與內部模型團隊合作,確保該模型符合相關行業和用例的要求,並解決不可預見的產品濫用問題。
有關該模型倫理考量的更多詳細信息,請參閱模型卡片++ 可解釋性、偏差、安全與保障 和 隱私 子卡片。
請在此 鏈接 報告安全漏洞或NVIDIA AI相關問題。
🔧 技術細節
模型架構
該模型基於Llama-3.1-405B-Instruct開發,使用了神經架構搜索(NAS)。NAS算法產生了非標準和非重複的塊,包括跳過注意力、可變FFN和FFN融合等。對於父模型的每個塊,創建了多個變體,提供不同的質量與計算複雜度的權衡方案。為了恢復性能,模型先進行了650億個標記的知識蒸餾(KD),隨後進行了880億個標記的持續預訓練(CPT)階段。
評估指標
使用了多個基準測試對模型進行評估,包括GSM-8K、MMLU、MATH500、HumanEval和RULER等,涵蓋了嚴格匹配、宏平均、微平均、pass@1等指標。
📄 許可證
本模型的使用受 NVIDIA開放模型許可證 約束。附加信息請參考 Llama 3.1社區許可協議。