Llama-3_1-Nemotron-Ultra-253B-CPT-v1開源大模型 - 長上下文、準確高效文本交互

Llama 3 1 Nemotron Ultra 253B CPT V1

由nvidia開發

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是基於Meta Llama-3.1-405B-Instruct的大型語言模型，支持128K tokens上下文長度，經過神經架構搜索優化，在準確性和效率之間取得良好平衡。

大型語言模型

Transformers

英語開源協議:其他 #128K長文本推理 #神經架構搜索優化 #持續預訓練增強

下載量 155

發布時間 : 4/8/2025

模型概述

該模型是Llama-3.1-405B-Instruct的衍生版本，通過神經架構搜索和持續預訓練優化，適用於英語和編程語言的文本生成任務。

模型特點

高效推理

通過神經架構搜索優化內存佔用，可在單個8xH100節點上進行推理，降低運行成本。

長上下文支持

支持128K tokens的上下文長度，適合處理長文檔和複雜任務。

垂直壓縮優化

採用新穎的垂直壓縮方法，顯著改善模型延遲。

持續預訓練

經過650億tokens的知識蒸餾和880億tokens的持續預訓練，提升模型性能。

模型能力

文本生成

長文本處理

編程語言理解

使用案例

基礎模型

領域適應

作為基礎模型，可通過微調適應特定領域或應用場景。

研究與應用

語言理解與生成

用於自然語言處理任務，如問答、摘要和對話系統。

代碼生成與理解

支持編程語言相關任務，如代碼補全和解釋。

🚀 Llama-3.1-Nemotron-Ultra-253B-CPT-v1

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一個大型語言模型，在準確性和效率之間取得了良好平衡，支持128K上下文長度，適用於商業應用。

🚀 快速開始

(即將推出) 你可以使用以下鏈接，在預覽API中嘗試基於此CPT模型構建的推理模型：Llama-3_1-Nemotron-Ultra-253B-v1。

以下是使用 Hugging Face Transformers 庫的代碼片段：

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

print(pipeline("Hey how are you?")) # 基礎模型使用方法
print(pipeline([{"role": "user", "content": "Hey how are you?"}])) # 聊天模型使用方法

✨ 主要特性

高效與準確的平衡：Llama-3.1-Nemotron-Ultra-253B-CPT-v1在模型準確性和效率之間實現了出色的平衡。通過新穎的神經架構搜索（NAS）方法，大幅減少了模型的內存佔用，能夠處理更大的工作負載，同時降低了在數據中心環境中運行模型所需的GPU數量。此外，還採用了一種新穎的垂直壓縮模型的方法，顯著改善了延遲。
長上下文支持：該模型支持128K的上下文長度，能夠處理更長的文本輸入和輸出。
商業可用：此模型可用於商業用途。

📚 詳細文檔

模型概述

Accuracy Plot

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一個大型語言模型（LLM），它是 Meta Llama-3.1-405B-Instruct（即父模型）的衍生模型。該模型支持128K的上下文長度，並且可以在單個8xH100節點上進行推理。雖然該模型源自Llama-3.1-405B-Instruct，但它經過了大量的持續預訓練（CPT）。這個CPT變體可以被視為Llama-3.1-405B-Instruct的“重新基礎化”衍生模型。

Llama-3.1-Nemotron-Ultra-253B-v1是一個在模型準確性和效率之間提供了良好權衡的模型。效率（吞吐量）直接轉化為成本節約。通過使用新穎的神經架構搜索（NAS）方法，我們大大減少了模型的內存佔用，從而能夠處理更大的工作負載，同時減少了在數據中心環境中運行模型所需的GPU數量。這種NAS方法能夠在準確性和效率之間選擇一個理想的平衡點。此外，通過使用一種新穎的垂直壓縮模型的方法（詳見此處），它還顯著改善了延遲。

這個模型是創建Llama-3.1-Nemotron-Ultra-253B-v1的基礎模型，它是Llama Nemotron系列的一部分。你可以在以下鏈接找到該系列的其他模型：

許可證/使用條款

適用條款：你對該模型的使用受 NVIDIA開放模型許可證約束。附加信息：Llama 3.1社區許可協議。基於Llama構建。

模型開發者：NVIDIA

模型日期：於2024年11月至2025年4月期間訓練

數據新鮮度：根據Llama-3.1-405B-Instruct，預訓練數據的截止日期為2023年

使用場景

該模型可以作為基礎模型，通過微調應用於任何所需的領域或應用程序。

發佈日期

2025年4月8日

參考文獻

模型架構

架構類型：密集解碼器Transformer模型 網絡架構：Llama-3.1-405B-Instruct，通過神經架構搜索（NAS）進行定製

該模型基於Llama-3.1-405B-Instruct開發，使用了神經架構搜索（NAS）。NAS算法產生了非標準和非重複的塊，包括以下內容：

跳過注意力：在某些塊中，注意力機制被完全跳過，或者被單個線性層所取代。
可變FFN：FFN層中的擴展/壓縮比在不同塊之間有所不同。
FFN融合：當連續幾個注意力層被跳過時，可能會產生多個FFN序列，這些FFN序列會被融合成更少但更寬的FFN層。

對於父模型的每個塊，我們創建了多個變體，提供了不同的質量與計算複雜度的權衡方案，詳情可參考此處。然後，我們在這些塊中進行搜索，以創建一個滿足所需吞吐量和內存約束的模型，同時儘量減少質量下降。為了恢復性能，該模型最初進行了650億個標記的知識蒸餾（KD），隨後進行了880億個標記的持續預訓練（CPT）階段。雖然初始模型源自Llama 3.1-405B-Instruct的指令版本，但經過大量的CPT後，可以將其視為“重新基礎化”的模型。不過，重新基礎化的CPT最終模型仍應保留一些指令跟隨能力。

預期用途

Llama-3.1-Nemotron-Ultra-253B-CPT-v1主要用於英語和編碼語言相關的任務。

輸入

輸入類型：文本
輸入格式：字符串
輸入參數：一維（1D）
其他輸入相關屬性：上下文長度最大為131,072個標記

輸出

輸出類型：文本
輸出格式：字符串
輸出參數：一維（1D）
其他輸出相關屬性：上下文長度最大為131,072個標記

軟件集成

運行時引擎：Transformers
推薦的硬件微架構兼容性：
- NVIDIA Hopper
- NVIDIA Ampere
首選操作系統：Linux

模型版本

1.0（2025年4月8日）

推理

引擎：

Transformers

測試硬件：

BF16：
- 8x NVIDIA H100-80GB
- 4x NVIDIA B100
FP 8
- 4x NVIDIA H100-80GB

訓練數據集

在預訓練管道之前的知識蒸餾階段，使用了多種訓練數據，其中包括：FineWeb、Buzz-V1.2和Dolma。

訓練數據集的數據收集

混合方式：自動、人工、合成

訓練數據集的數據標註

混合方式：自動、人工、合成

評估數據集

我們使用以下部分列出的數據集對Llama-3.1-Nemotron-Ultra-253B-CPT-v1進行評估。

評估數據集的數據收集

混合方式：人工/合成

評估數據集的數據標註

混合方式：人工/合成/自動

評估結果

基準測試	指標	得分
GSM-8K	嚴格匹配	84.99
MMLU	宏平均	88.09
MATH500	微平均	80.4
HumanEval	pass@1	88.41
RULER	128K	83.21

倫理考量

NVIDIA認為可信AI是一項共同的責任，我們已經制定了相關政策和實踐，以支持廣泛的AI應用開發。當開發者按照我們的服務條款下載或使用該模型時，應與內部模型團隊合作，確保該模型符合相關行業和用例的要求，並解決不可預見的產品濫用問題。

有關該模型倫理考量的更多詳細信息，請參閱模型卡片++ 可解釋性、偏差、安全與保障和隱私子卡片。

請在此鏈接報告安全漏洞或NVIDIA AI相關問題。

🔧 技術細節

模型架構

該模型基於Llama-3.1-405B-Instruct開發，使用了神經架構搜索（NAS）。NAS算法產生了非標準和非重複的塊，包括跳過注意力、可變FFN和FFN融合等。對於父模型的每個塊，創建了多個變體，提供不同的質量與計算複雜度的權衡方案。為了恢復性能，模型先進行了650億個標記的知識蒸餾（KD），隨後進行了880億個標記的持續預訓練（CPT）階段。